Причины отказов в информационно-технологических телекоммуникационных сетях

Роберт Хадыма и Деборх И. Фелс

Перевод с английского: Тараненко В. В.


Исходная статья размещена по адресу:http://www.docstoc.com/docs/3944884/Causes-of-Failure-in-Information-Technology-Telecommunications-/


        Традиционная техника и модели, используемые для определения показателей надёжности и отказов телекоммуникационных сетей, основаны на классических моделях отказов, таких как прогнозирование Среднего времени между отказами и Среднего времени между перерывами в обслуживании. Сетевые отказы происходят по многим различным причинам и во многих различных формах. Данные классические модели только лишь предполагают, что отказы вызваны аппаратным компонентом сети. В связи с широким использованием Интернет-технологий необходимо исследовать другие факторы, вызывающие отказы в телекоммуникационных сетях или способствующие им. Были установлены и определены две дополнительные модели отказов, помимо уже существующих и опубликованных моделей отказов отказ по причине Атаки системы с целью нарушения нормального обслуживания пользователей и отказ вследствие Катастрофических событий. Наряду с этим была установлена и определена начальная схема обобщённой модели прогнозирования, основанная на Теории динамической системы.

Введение

        В течение свыше тридцати лет Спецификация Министерства обороны США MIL-HDBK-217F является стандартной мерой для оценки надёжности, свойственной электронному оборудованию и системам. Она основана на анализе среднего времени, в часах, необходимого для отказа электронных компонентов, называемого Среднее время между отказами (СВМО). Было использовано несколько подобных стандартов, таких как Bellcore TR-322, а также множество модификаций и производных, чтобы предсказать поведение телекоммуникационного оборудования, находящегося в настоящий момент в производстве. Хотя процедура определения СВМО хорошо отрегулирована, применение данного прогнозирования надёжности в модели телекоммуникационных сетей «часто неправильно понимается и неправильно используется». Исследование показало, что чрезмерно оптимистическое прогнозирование отказов происходит в результате неправильного понимания и неправильного применения оценки СВМО.
        Несмотря на неправильное понимание и неправильное употребление данных прогнозов, телекоммуникационная промышленность все ещё значительно сфокусирована на их использовании. Изучение технической документации у ведущих изготовителей телекоммуникационного оборудования (Cisco и Juniper Networks) показывает, что имеется обширная документация по прогнозированию отказов, основанном на стандартах СВМО и Среднего времени между перерывами в обслуживании (СВМПО), но мало сказано о других причинах сетевых отказов. Такой коллективный взгляд на данную проблему наблюдается во всей телекоммуникационной промышленности, где можно найти множество информации относительно использования прогнозирования СВМО и мало информации относительно других категорий сетевых отказов.
        Киас (2001) выделил пять категорий ошибок, которые могут привести к общему системному отказу в системах обработки данных и которые выходят за рамки прогнозирования отказов СВМО. К ним относятся:
        1. Ошибка оператора
        2. Проблемы массовой памяти
        3. Проблемы аппаратного обеспечения компьютера
        4. Проблемы программного обеспечения
        5. Сетевые проблемы
        Данное исследование рассматривает пять категорий, предложенных Kyas (2001) с целью определения того, являются ли необходимыми дополнительные категорий или есть ли возможность описать общую модель прогнозирования отказов.

Категории Сетевых Отказов

        Категория 1: Проблемы аппаратного обеспечения
        Поставщики телекоммуникационного оборудования сосредоточились на категории проблем аппаратного обеспечения Киаса (2001) как главном предсказателе показателей сетевых отказов. Приблизительно 25% всех отказов происходят в результате проблем аппаратного обеспечения, таких как компьютерные отказы. Чтобы усилить общую надежность телекоммуникационного оборудования, поставщики предлагают большой выбор продукции. Сетевой проектировщик может выбрать и использовать оборудование с широким диапазоном выбора, начиная от отсутствия и до полного дублирования (или более) оборудования и связей. Применяемые в данном узком контексте, американские Военные и Bellcore стандарты являются полезными предсказателями. В наше время общепринято использование индивидуальных аппаратных компонентов телекоммуникационного оборудования, СВМО которого варьируется от 80 000 часов до нескольких сотен тысяча часов.
        В процессе фактической эксплуатации сетей различия наблюдаются не только, когда речь идёт о выборе аппаратных компонентов. Данные вариации включают качество оборудования, качество сетевого планирования и проекта, сложность выполнения, взаимодействие и совместимость компонентов. Многие сети являются исключительно сложными системами – поразительно, что они, вообще, проявляют какую-либо стабильность!
        Сети, созданные для решения критически важных, ответственных задач, проектируются таким образом, чтобы иметь «пять девятых» пригодности (т. е. 99,999 % пригодности) и соответствовать рабочим характеристикам, основанных на оценке СВМО. Однако, существуют ещё четыре важные категории отказов, выделенные Киасом (2001), включающие оставшиеся 75 % сетевых отказов, которые нельзя определить с помощью СВМО анализа проблем аппаратного обеспечения. Необходимо рассмотреть эти другие причины сетевых отказов (или, соответственно, пригодности) для того, чтобы точно оценить и предсказать сетевую пригодность. Для трёх из данных категорий анализ СВМО не подходит.
        Категория 2: Ошибка оператора
        Ошибки оператора (OО) определяются Киасом (2001) как отказы, вызванные непосредственно действиями человека. Далее ошибки оператора подразделяется на намеренные и непреднамеренные и на ошибки, которые причиняют или не причиняют ущерб. Киас (2001) полагает, что OО влекут за собой свыше 5 % всех системных отказов. Эта цифра обычно варьируется от предприятия к предприятию в зависимости от уровня квалификации и других факторов, таких как корпоративная культура и процедуры.
        Данный вид ошибок полезен в исследовании возможных видов сетевых системных отказов. Ошибка оператора, воздействующая на надежность сети, может явиться результатом взаимодействия людей с сетевым оборудованием, физическими кабелями и соединителями, а также результатом неполадок с другими ИТ устройствами, вызванными действиями пользователей. Другие ИТ устройства, такие как серверы базы данных и серверы электронной почты, могут производить «широковещательные штормы» и дублировать сетевые адреса вследствие действий индивидуумов, работающих с различными устройствами внутри сети.
        Категория 3:Массовые запоминающие устройства
        Эта категория определяется как отказы, связанные с массовыми запоминающими устройствами. Отказы данных устройств изучаются как различными изготовителями, так и пользователями этих устройств. Хотя высококачественные жёсткие диски могут достигать исключительно высоких показателей СВМО до 10 в 6 степени часов (почти 114 года), многие организации, использующие банки жёстких дисков, часто сталкиваются с более высоким уровнем отказов просто из-за большого количества используемых дисков.
        
        К тому же, внешние воздействующие факторы, такие как изменение температуры, физическое обращение или неправильное обращение в сочетании с частотой определённых операций диска, таких как операция непрерывного поиска, повлияет как на СВМО, так и на его статистическое распределение. Анализ отказов может учитывать данные факторы в процессе планирования надежности сети.
        Хотя отказы данных устройств сами по собе не считаются сетевыми отказами, значительно возросло использование Сетей хранения данных (СХД), в которых огромное количество устройств массовой памяти/массовых запоминающих устройств непосредственно соединяются с сетью с помощью мощных каналов. СХДы действительно относят к сетевым устройствам, поскольку они являются сетецентрическими. С позиции аппаратного обеспечения компьютера, традиционные оценки СВМО подходят для этих устройств.
        Категория 4: Проблемы программного обеспечения
        В настоящее время корпоративные сети соединяют большое количество серверов, поддерживающих большое количество пользователей, использующих очень большое количество приложений программного обеспечения. Широко распространённые системы обычны в предприятиях, которые территориально рассредоточенны. Сеть полностью обеспечивает возможность связи между различными компьютерными платформами и клиентами. В системах такой сложности даже при тщательном планировании, мониторинге и оценивании трудно предсказать сервисные требования к сети. Отказы могут явиться результатом недостаточной мощности, чрезмерных задержек во время пиковой нагрузки, также как катастрофические отказы являются результатом потери необходимого компонента или ресурса.
        Сетевые программные ошибки могут быть вызваны неисправностью драйверов устройства, незначительными отличиями в выполнении и обработке протокола, ошибками и дефектами операционной системы. Согласно Киасу (2001), проблемы программного обеспечения несут ответственность за приблизительно такое же число отказов, что и проблемы аппаратного обеспечения (25 %), и являются важными для любых значимых анализов надёжности.
        Категория 5: Сетевые проблемы
        К данной категории относятся проблемы Аппаратного и Программного обеспечения, которые непосредственно связаны с Сетью. Они отвечают за более одной трети ИТ отказов. Для лучшего понимания распространения и природы данных видов отказов полезным будет обсудить их в контексте модели взаимодействия открытых систем. Рисунок 1 показывает распространение ошибок среди уровней модели взаимодействия открытых систем в локальных компьютерных сетях.
        Причинами отказов на нижних уровнях модели часто являются неисправные сетевые адаптеры, неисправные кабели и соединения, повреждения в интерфейсных картах, мостах, маршрутизаторах и коммутаторах, сигнальный отказ (кольцевая сеть с маркерным доступом), ошибки в контрольной сумме и ошибки в размерах пакета. Так как со временем Интернет-технологии улучшились, количество отказов на нижних уровнях модели взаимодействия открытых систем сократилось, но возросло количество отказов на Прикладном уровне, поскольку сложность программного обеспечения продолжает значительно увеличиваться.
        Многие из описанных здесь ошибок и отказов часто ограниченны определённым участком (обычно одним компьютером или пользователем) и не являются катастрофическими по своей природе. Локализованные отказы очень отличаются от тех, которые определяются американскими военными моделями и моделями Bellcore, что позволяет рассматривать локальный отказ не как отказ устройства. Для пониманя вклада локального отказа в надёжность сети важно учитывать масштаб и размер отказов, вызванных индивидуальными сетевыми компонентами. Например, неисправность сетевого адаптера едва ли приведёт к единичному отказу корпоративной сети. Однако отказ магистрального маршрутизатора без соответствующей избыточности и распределительных устройств может вывести из строя всю сеть.

Рисунок_9

Рисунок 1. Частота ошибок локальной сети на уровнях модели взаимодействия открытых систем

Дополнительные отказы, не категоризированные Киасом (2001)

        Хотя пять категорий Киаса (2001) объясняют большое количество сетевых отказов, следующие две дополнительные категории также заслуживают рассмотрения и обсуждения:
        1. Отказы по причине Атаки системы с целью нарушения нормального обслуживания пользователей (черви, вирусы, троянские кони и вредоносные программы);
        2. Отказы вследствие стихийных бедствий, таких как пожар, наводнение, землетрясения, простои и т.п.
        Категория 6: Атака системы с целью нарушения нормального обслуживания пользователей.
        Атаки системы с целью нарушения нормального обслуживания пользователей являются главным источником сетевых отказов начиная с 2000 года. В настоящее время они происходят несколько раз в год, приводя к нарушению сервисного обслуживания по всему миру. Частота данных сетевых отказов возрастает в тревожащем темпе. Только частные, строго контролируемые сети, не имеющие доступа к Интернету, невосприимчивы к такой форме атаки, используя воздушные зазоры в сети. Воздушные зазоры это физическая брешь без возможности соединения, в которой данные вручную переносятся между узлами. Такой подход не является практичным для преимущественного большинства сетей, полагающихся на Интернет-связь.
        Примером воздействия Атак системы с целью нарушения нормального обслуживания пользователей служат вирус Code Red/Кодовый красный вирус и более поздняя вариация, червь Slammer, нарушившие работу миллионов компьютеров, запустив хорошо слаженную, распространённую Атаку системы с целью нарушения нормального обслуживания пользователей. Эти атаки привели к существенным потерям доходов корпораций по всему миру. Увеличение частоты осуществления или угрозы Атаки и воздействие данного типа сетевых отказов на нарушение работы сети (и доходы корпораций) значительны, и поэтому Категория Атаки системы с целью нарушения нормального обслуживания пользователей должна быть включена в любую действующую модель анализа отказов корпоративной сети, подключённой к Интернету.
        Возможно даже более хитрый вредоносный код будет запущен, чтобы нанести серьёзный ущерб во всем мире. Исследователи недавно постулировали, как вирус, продублировавший вирус Warhol, мог бы разрушить весь Интернет в течение пятнадцати минут. Например, Slammer остановил Интернет-обслуживание в Индии, вывел из строя миллион машин в Корее, вывел из строя банкоматы в крупной банковской компании «Бэнк ов Америка», нарушило работу университетов и главного Канадского банка в течение нескольких дней в 2003 году.
        Такие черви как Code Red и Slammer, вероятно, созданы и запущены индивидуумом или небольшим числом индивидуумов. Существует даже более опасная угроза, если вредоносный код станет частью атаки в информационной войне. Имеется достаточного документальных подтверждений того, что такие страны как Китай имеют активную программу развития для проведения компьютерной войны. Такая форма атаки может нанести ущерб обществу, основанному на информационных технологиях (не только одна зараженная сеть). Угрозы весьма реальны, и будучи запущенной, вредоносный код вызывает сбои в системе, пока не будет уничтожен.
        Сложно спрогонозировать процент сетевых отказов, вызванных этим видом ошибки, поскольку это явление наблюдается с недавнего времени и происходит хаотично. Однако потенциальное воздействие этого отказа огромно и широко распространено, и не должно быть недооценено.
        Категория 7: Сценарии бедствия.
        Заключительная категория отказов, которая рассматривается в данной работе, это категория сценариев бедствия, происходящих вследствие различных обстоятельств, многие из которых связаны с окружающей средой, а некоторые являются синтетическими/искусственными. К экологическим катастрофам относятся наводнения, землетрясения, ураганы, длительные отключения электричества, простои, торнадо и пожары.
        Синтетические/искусственные бедствия могут включать воровство, вандализм, поджог, войну и террористические акты. В каждом из этих сценариев бедствия можно перечислить ещё много причин. В некоторых случаях наблюдается региональная распространённость, что может быть полезным в предсказании такого случая. Однако во многих других случаях никакой предыдущий опыт или средства прогнозирования не приносят пользы. Планирование бедствия только недавно стало высоким ИТ приоритетом, поскольку коллективное мышление мира сосредоточилось на борьбе с угрозой широко распространённого терроризма.
        Развитие всесторонней методологии анализа отказов Были представлены несколько категорий, определяющих возможную причину и типы отказов телекоммуникационных сетей. В некоторых случаях оценка вероятности и природы отказа предсказуемы, а во многих других любая оценка была бы только догадкой и, таким образом, была бы неточна. Возникает вопрос и, соответственно, проблема, что делать дальше.
        Очевидно, можно оценить каждую из этих семи категорий и осуществить количественные и гипотетические прогнозы. Этому можно уделить первостепенное внимание и использовать как входные данные при оценке степени риска для телекоммуникационной инфраструктуры. Этот подход может обеспечить методологию, в соответствии с которой корпорация может оценить и ответить на широкий диапазон отказов в сети. Однако можно использовать также альтернативный и, возможно, менее гипотетический подход – Теорию динамических систем.
        Теория динамических систем, впервые предложенная Томом, описывает катастрофы как раздвоения различных видов равновесия или фиксированных точек притяжения. Она используется для характеристики большого количества естественных и синтетических явлений, начиная от популяций насемкомых и заканчивая опрокидыванием кораблей в море. Определенные типы отказов в телекоммуникационных системах, очевидно, могут быть описаны с помощью этой теории. Такие сетевые отказы как колебание маршрута являются наиболее подходящими объектами для описания с помощью данного подхода с целью моделирования отказа.
        Остаются открытыми вопрос и проблема применения Теории динамических систем ко всем различным категориям сетевых отказов и сравнения результатов с существующими моделями, использующими в качестве предсказателей СВМО и СВМПО.

Заключение

Данная работа представляет семь категорий возможных отказов в телекоммуникационных инфраструктурах, предлагающих намного более широкую перспективу, чем общие промышленные методы анализа СВМО. Кроме того, представлена Теория динамических систем как заслуживающий на внимание подход для описания всех категорий отказов. Данное и дальнейшее исследование будет использовать инструменты, предоставленные Теорией динамических систем для определения максимального количества категорий отказов, которые можно рассматривать одновременно.