Что такое коэффициент готовности оборудования
Пример расчета «коэффициента готовности» для IT-системы
Задача: в Техническом Задании на комплексную IT-систему был пункт – «выполнить расчет коэффициента готовности системы».
Решение: использовать материалы из ГОСТ, запросить дополнительные данные у вендоров по элементам оборудования и использовать несложную математику для выполнения итогового расчета.
Нормативные ссылки:
ГОСТ Р 27.002-2009 («Надежность в технике (ССНТ). Термины и определения»)
ГОСТ Р 27.003-2011 Надежность в технике (ССНТ). Управление надежностью. Руководство по заданию технических требований к надежности
ГОСТ 27.002-89 Надежность в технике (ССНТ). Основные понятия. Термины и определения
Согласно ГОСТ Р 27.002-2009 («Надежность в технике (ССНТ). Термины и определения») коэффициент готовности (в области надежности в технике) — это вероятность того, что изделие в данный момент времени находится в работоспособном состоянии, определенная в соответствии с проектом при заданных условиях функционирования и технического обслуживания.
Таким образом, готовность отражает способность системы непрерывно выполнять свои функции.
В общем случае, для информационных и компьютерных устройств, коэффициент готовности – это вероятность того, что компьютерная система в любой (произвольный) момент времени будет находиться в рабочем состоянии.
Коэффициент готовности (K) определяется по формуле:
где:
— MTBF (Mean Time Between Failure) — среднее время наработки на отказ (средняя наработка между отказами);
— MTTR (Mean Time To Repair) — среднее время восстановления работоспособности (среднее время до восстановления).
В отличие от надежности, величина которой определяется только значением MTBF, готовность зависит еще и от времени, необходимого для возврата системы в рабочее состояние.
Итак, у нас есть определенная IT-система (сервера стоечного исполнения, блейд-сервера, система хранения данных).
Отказоустойчивость на уровне оборудования такой IT-системы позволяет ее сервисам продолжить работу в случае аппаратной неисправности отдельных компонентов серверного оборудования, системы хранения данных или инфраструктуры.
Отказоустойчивость функционирования внутренних компонентов IT-системы достигается применением следующих технологий:
Электропитание оборудования IT-системы осуществляется от двух независимых источников. Подключение оборудования IT-системы к внешним сетям передачи данных и сетям хранения данных также дублируется.
Все подсистемы IT-системы имеют резервирование, поэтому при отказе любого элемента оборудование IT-системы в целом останется в работоспособном состоянии. Более того, замена отказавшего элемента возможна без остановки оборудования IT-системы.
Вероятность (P) выхода одного компонента из строя в течение одного года составляет:
P = 1/MTBF.
Отказ дублированного компонента приведет к отказу оборудования только при условии, что компонент-дублер тоже выйдет из строя в течение времени, необходимого для «горячей» замены компонента, отказавшего первым. Если гарантированное время замены компонента составляет 24 часа (1/365 года) (что соответствует сложившейся практике обслуживания серверного оборудования), то вероятность такого события в течение года:
Вычислив вероятность отказа всех N компонентов оборудования IT-системы, можно рассчитать вероятность отказа оборудования IT-системы в течение одного года путем суммирования каждой вероятности отказа:
Так как отказы компонентов обычно распределены во времени равномерно, то, зная вероятность отказа оборудования IT-системы в течение года, можно определить время его наработки на отказ:
MTBFs = 1/Ps.
Коэффициент готовности оборудования IT-системы будет равен:
Kit = MTBFs/(MTBFs+MTTR).
Выполним расчет коэффициента готовности оборудования IT-системы из 26 компонентов (каждый из компонентов имеет несколько элементов).
Основная проблема в таблице ниже – актуальные данные по параметру MTBF для каждого компонента. Эти данные очень неохотно предоставляют вендоры. Часто приходится вступать в переписку с представителями вендоров для просьбы предоставления и уточнения этих данных.
В таблице ниже выполнен расчет для «устаревшей» IT-системы, но сейчас она функционирует уже почти пятый год в боевом режиме без отказа компонентов, но уже Заказчик планирует миграцию на новые компоненты не дожидаясь крайний сроков из итоговых расчетных данных.
(*) – исходные данные по MTBF являются оценочными, предоставленными по данным позициям оборудования производителя или их аналогам.
В итоге расчетные данные по оборудованию нашей системы:
Этот расчет, конечно, очень оценочный. Но основное понимание, что система оптимальна или нуждается в дополнительных элементах, может предоставить.
По факту данные таблицы с расчетами заносятся в нужный раздел проектной документации и выдаются Заказчику.
Интересно выполнить такой расчет для комплекта сетевого оборудования (с максимальным разбиением на элементы до SFP-модуля и блоков питания) и сравнить с разными вендорами данные итоговые.
Примеры расчета «коэффициента готовности» для комплектов сетевого оборудования
Теория и основные моменты по методики расчета «коэффициента готовности» были описаны мной ранее в этой статье.
В данной публикации выполним расчет «коэффициента готовности» двух комплектов сетевого оборудования операторского класса, устанавливаемых каждый в один телекоммуникационный шкаф и проведем сравнение с расчетом «коэффициентом готовности» для комплекта оборудования без дублированных элементов.
Зачем вообще нужно делать расчеты «коэффициента готовности» для разных случаев компоновки оборудования?
У нас данные по расчету «коэффициента готовности» в итоговых результатах могут быть некорректны, слишком идеальны, завышены и занижены. А где же там закралась ошибка или все правильно посчитано, можно понять, лишь когда есть возможность увидеть все элементы системы вместе, их варианты использования и расположения.
Пример «идеального» расчета «коэффициента готовности».
Основные компоненты комплекта №1 сетевого оборудования:
Схема шкафа с установленным комплектом №1 выглядит вот так:
Расчет коэффициента готовности оборудования комплекта №1:
(*) – исходные данные по параметру MTBF являются оценочными, предоставленными по данным позициям оборудования производителя или их аналогам.
The Cisco ASR 9000 Series Routers are designed to have high Mean Time Between Failures (MTBF) and low Mean Time To Resolve (MTTR) rates, thus providing a reliable platform that minimizes outages or downtime and maximizes availability. The MTBF is calculated based on the Ground Benign condition. The values may be adjusted based on the different router usage.
Итоговые расчетные данные для комплекта №1:
Для расчета коэффициента готовности нужно понимание, как и где установлено оборудование, каков его функционал и возможность горячей замены и дублирования элементов, сложность монтажа и замены комплектующих, без отключения основных систем комплекса.
В идеальном расчете все элементы задублированы (что редко бывает по факту), предполагается, что ЗИП у нас под рукой, а работы можем проводить на живую на включенном рядом рабочем оборудовании без проблем.
А если физическая компоновка расходится с логической схемой системы, то тут уже отдельные части системы не могут дублировать друг друга.
В «идеальном» случае у нас комплекс из двух половинок состоит, которые дублируют друг друга. Но если такого логического дублирования нет, то тут уже уходим от «идеального» расчета в более правильный и получаем правдоподобный результат.
И еще давайте будем реалистами, добавим в расчет 60 минут в год для «Restart\Shutdown procedure». Загрузить новое шасси, настроить и запустить в штатный режим этого времени должно хватить с момента нажатия тумблера включения на корпусе. Для 60 минут простоя вероятность отказа за год — 0,04167. Это будет самая нижняя строчка в расчетах далее.
Пример «реального» расчета «коэффициента готовности».
Расчет коэффициента готовности оборудования комплекта №1 без дублирования:
Итоговые расчетные данные для комплекта №1 без дублирования:
В лучшем случае, даже если у нас есть дублированные элементы в системе, нужно игнорировать возможность их задействования в качестве замены, в случае, если эти элементы содержать в себе другие компоненты. То есть, смотрим, что у нас есть два шасси и два щита электропитания. Эти компоненты дублированы, но у них внутри есть другие элементы, которые могут прекратить функционировать, когда откажет «материнский» компонент.
Если для шасси это существенно, то для щита менее проблемно, так как там несложная электроника только для тестирования и текущего отображения нагрузки используется, даже при выходе из строя этой платы щит будет функционировать в обычном режиме.
Пример «стандартного» расчета «коэффициента готовности».
Основные компоненты комплекта №2 сетевого оборудования:
Схема шкафа с установленным комплектом №2 выглядит вот так:
Расчет коэффициента готовности оборудования комплекта №2 с учетом не дублированности шасси и щитов электропитания:
Итоговые расчетные данные для комплекта №2:
Например, при замене шасси у нас будет демонтирован весь комплект плат и адаптеров с этого шасси, а это может занять время и более 2-3 часов. А демонтировать элементы, когда рядом в стойке включенное оборудование – это большой риск для возникновения дополнительной нештатной ситуации.
Для идеального варианта – два шкафа с оборудованием, в каждом по 2 шасси – одно рабочее, второе пустое для быстрой активации с переносом элементов из вышедшего из строя. Но это слишком идеальная ситуация.
Что такое коэффициент готовности оборудования
К сожалению, бывает плохая оценка КТГ побуждает просто лучше работу работать. От чего зависят выбор просто лучше работать или устранять конкретные причины простоев? Правильно, от прозрачности расчета КТГ, какие данные и по какой формуле рассчитаны эти 88,9%. Нет одного универсального расчета который подходит для эксплуатации, ремонтов, обслуживания, надежности оборудования.
КТГ, ты о чем?
Коэффициент технической готовности показывает процент времени технически готового к эксплуатации оборудования в определенном периоде времени. В определении этих двух переменных и кроется суть результата расчета и возможности его использования. Часто вижу реакцию, у нас в фирме принято одно КТГ для всех и считается просто: берем время, когда оборудование неисправно (не может выполнять свои функции) и календарное время:
КТГ = (календарное время – время оборудование не может работать) / календарное время
Достаточно сомнительный подход в настоящее время. Раньше с отсутствием компьютерных систем, незначительной конкуренцией, без стремления к эффективному производству такой расчет можно было использовать. Как говориться лучше так чем не как.
Получили «низкий КТГ» плохую оценку работы сервисной службы, поругали начальника, воодушевили на подвиги и отправили его решать его проблемы. Талантливые находили правильные проблемы и решая их действительно КТГ росло. Менее опытные хватались за всё подряд, получалось неэффективно и тогда просто рисовали показатели на бумаге. Сейчас вашу фирму устроит такой подход?
Сейчас большинство компаний нацеленные на общую их эффективность и удовлетворение заказчиков, а не на эффективность оборудования. Важным становиться готовность оборудования не в календарное время, а время, запланированное к производству продукта оборудованием. Когда говорят – «наше оборудование никогда не останавливается», часто лукавят. В технологических цепочках при плановой остановке одного элемента будет простаивать и другие, в карьере при взрывных работах мобильная техника выезжает из карьере и простаивает, конвейеры могут останавливаться из-за снижения спроса, и т.д. Посмотрите на рисунок. При расчёте от календарного времени КТГ в обоих случаях одинаково, а если брать время, запланированное к производству то КТГ будет отличаться.
Какое КТГ важно для производства?
Эксплуатация
Производство спускает в эксплуатацию график времени возможного для выпуска продукции. КИО «Коэффициент использования оборудования»(доля времени, когда оборудование выпускает продукцию в определенном периоде) рассчитанный на основе календарного времени покажет потенциал доступный к максимальной расчетной загрузки, но не оценит работу службы эксплуатации. Если за базу возьмем график спущенный производством, то увидим на сколько эксплуатация обеспечила требуемую загрузку.
Эксплуатация планирует доступные ей ресурсы. Вот тут и возникает потребность понять время доступности оборудования «КТГ». Эксплуатации конечно необходим КТГ основанный на времени, указанном в графике производства. Если техническая служба предоставит КТГ основанный на календарном времени, у эксплуатации будут проблемы.
КТГ необходимое для эксплуатации назовем «физическое КТГ». Рассчитаем, как отношение времени в графике производства за вычетом всех простоев, связанных с обслуживанием (плановые, аварийные ремонты, организационные простои в сервисе в ожидании чего-либо) к общему времени в графике производства.
Физическое КТГ для сервиса является одним из выходных продуктов. Как конфета для кондитерской фабрики.
Обратите внимание, обслуживание оборудования вне времени производственного графика не влияет на физический КТГ оборудования.
Если физическое КТГ выросло на Х% значит ли это что сервис молодец? Если конфета вкусная хорошая ли кондитерская фабрика? Не всегда. Представьте, у эксплуатации возникли проблемы вследствие чего КИО упало. Наработка техники сократилась. Естественно объем необходимых профилактических и восстановительных работ тоже. Время графика осталось прежним. Для внутренней оценки сервиса уже необходима другая база расчета. Правильно, теперь надо считать от фактического времени работы оборудования. Простои учитываем все те же.
Когда эксплуатация оборудования достаточно стабильная для оценки тренда сервиса можно использовать физический КТГ. Балансируя между плановыми и аварийными ремонтами подбирайте оптимальный КТГ.
Производители оборудования говорили о КТГ в 95%, дистрибьюторы давали оценку в 90%, а получили 80%. Ну что ждать от продавцов и производителей, им главное продать! Возможно и так, но всё меньше остается компаний с таким подходом. Почему такие разные цифры?
Задача производителя сделать надёжную технику с доступным обслуживанием. Надежность оборудования измеряет в аварийных отказах, не вызванных плохим обслуживанием или неправильной эксплуатацией. Профилактика оборудования есть в инструкции производителя и исходя из возможностей вы планируете время на его проведение. Изготовитель честно собрал статистику по уже работающему оборудованию сообщает КТГ полученное на основании наработки оборудования и времени восстановления (время вращения гаек на оборудовании) при аварийных отказах. Такое КТГ принято называть механическим (или врождённым) КТГ.
Почему же дистрибьюторы дали меньшую оценку? Многие работы требует запасных частей или специального инструмента. У дистрибьютора есть предполагаемые сроки поставки возможно необходимых запасных частей. Конечно в своих прогнозах он будет учитывать время их ожидания и добавит его к времени работ по восстановлению предоставленного производителем.
Теперь сравните эти подходы с вашим расчетом КТГ. Если сравнивали с физическим КТГ то расхождение теперь понятно. Но если сравнивали с КТГ учитывающее только время ожидания и время восстановления аварийных ремонтов (назовём «достижимое КТГ») могли получить другую цифру по причинам:
Причин может быть много.
Как понять их влияние на КТГ? Как рассчитать разные КТГ?
Посчитаем
Давайте строить КТГ из кирпичиков. Из хороших кирпичей будет надёжная стена.
Суть расчёта разобрали выше, переходим к практике.
1. Время делим между эксплуатацией и простоем зависящем от сервиса.
2. Находим средние значения в оцениваемом периоде.
КТГ = эксплуатация/(эксплуатация + простой)= 345/(345+155) =0,69
Дальше будем давать в каждом случае определение простою и эксплуатацией, рассчитывать их как выше и получать нужный нам КТГ.
Для расчетов потребуется время каждой остановки, запуска оборудования с указанием причины.
Эксплуатация
Для целей эксплуатации и общей оценки тренда сервиса используем «физический КТГ».
Не понятно, как действовать для изменения КТГ.
Применим общий подход расчёта КТГ.
MTTM, М, МTW – рассчитаем, как показал выше.
Потребуются дополнительные данные о времени начала и окончания обслуживания (запланированного и нет). Не надо путать с началом и окончанием простоя. MTW рассчитывается из времени запуска в работу оборудования, начала остановки и проведения обслуживания.
*-Учитываем только обслуживания которые были во время работы оборудования внутри графика.
Отлично, мы можем влиять на три параметра. Есть направление действий. В других статьях мы разберем показатели подробно.
Сервис
О качестве работы сервиса расскажет «достижимое КТГ».
Потребуется время начала и окончания незапланированного ремонта(непосредственного осуществления ремонтного воздействие)
Очевидно влияние каждого элемента на КТГ.
Полезно будет MTW разделить на ожидание запасных частей (подбор, заказ, логистика, приход и выдача) и свободных ресурсов (площадей, слесарей, инструмента, и т.д.). Делить более подробно, позволяют современные сервисные программы ведя учёт просто и экономя время.
Оборудование и квалификация
О качестве оборудования и квалификации выполнения работы расскажет «механическое КТГ».
Если применяли RCA (Root Cause Analysis анализ основной причины) при каждой поломке, то выбирая отказы, связанные с конструкцией и качеством сборки сможете найти врождённое КТГ техники. То на которое обычно ссылается изготовитель. Даже в не гарантийный период, при низком показателе, производители часто дают разные вкусные плюшки. Конечно если Вы сформулируете претензию ссылаясь на факты и соответствующий расчёт.
Для каждого
Не измеряйте среднюю температуру по больнице, используя КТГ основанное на календарном времени.
Дайте каждому оборудованию, системе, узлу, отделу по подходящему КТГ и постоянные улучшения будут проще и эффективней.
Как работать с показателями, почему их нельзя назначить и почему MTBF побеждает КТГ читайте в следующих выпусках. До новых встреч.
К вопросу о коэффициенте готовности
В статье разъясняются некоторые моменты, связанные с практической реализацией требований к готовности вычислительной системы.
Обратите внимание: статья предназначена для обычных IT-специалистов и руководителей IT-подразделений, столкнувшихся с необходимостью удовлетворения формальных требований по готовности, и не содержит ничего нового для специалистов в области надёжности.
При построении систем, к которым предъявляются требования в области надёжности и отказоустойчивости, в отечественной инженерно-технической практике часто используются понятия коэффициента готовности Кг и коэффициента оперативной готовности Копер. В соответствии с ГОСТ 27.002-89,
Кг (t) = Тиспр (t) / (Тиспр (t) + Тпрост (t)),
то есть отношение времени исправной работы к сумме времени исправной работы и времени простоев за срок службы t;
Копер (t, тау) = Кг (t) * P (тау),
где P (тау) – вероятность безотказной работы на интервале тау, то есть вероятность того, что, если система была работоспособна в течение некоторого срока, то в следующие тау единиц времени она не выйдет из строя.
Основная сложность для вычислительных систем, как правило, состоит в обеспечении целевого значения коэффициента готовности Кг. К расчёту Кг можно подойти формально или вдумчиво.
При формальном подходе, подразумевается, что изделие всегда может быть отремонтировано заменой отказавшего блока на взятый из ЗИПа (запаса запчастей), лишь бы в ЗИПе нашёлся такой же. Для расчёта ЗИПа, исходя из заданных показателей надёжности блоков, существуют специальные методики и готовые программные средства, которые позволяют сравнительно легко получить требуемый результат. Однако, с теоретико-вероятностной точки зрения, проблема здесь заключается в том, что принятая модель надёжности рассматривает отказы разных изделий как независимые события, что для вычислительной техники на длинных интервалах времени не соответствует действительности — часто устройства одновременно выходят из строя как при эксплуатации, так и при хранении.
При вдумчивом подходе, мы обязаны рассмотреть возможность ситуации, когда взятый из ЗИПа на замену блок оказался тоже неработоспособным (что вполне вероятно, учитывая характер деградации характеристик вычислительной техники, часто зависящей больше от времени жизни устройства, чем от интенсивности его работы). Вариантом этой ситуации является изначальное отсутствие в ЗИПе требуемого блока из-за слишком оптимистичной начальной оценки его надёжности. Тогда время простоя будет состоять из времени оповещения эксплуатирующим персоналом ответственных за ремонт лиц о неисправности, получения ремонтной организацией или подразделением неисправного блока, поиска и приобретения нового аналогичного (или, при менее удачном раскладе, решения вопроса об изменении конструкции изделия), его проверки, настройки, отправки в эксплуатирующую организацию и замены. Практика показывает, что для единично применяемых блоков, не имеющих многократного резервирования на ремонтном складе, время простоя в таком случае практически невозможно сократить до величины менее двух месяцев (учитывая, что один только срок приобретения некоторых комплектующих может достигать 60 дней и более).
Заметим, что, разумеется, при приобретении оборудования ответственного назначения предпочтительно заключать сервисный контракт с производителем, обеспечивающий замену отказавших комплектующих в короткие сроки. Однако, редко когда такие контракты бывают доступны более чем на 5 лет, чего, зачастую, недостаточно для плановых сроков эксплуатации промышленных систем.
Решим простые пропорции, вытекающие из формулы коэффициента готовности:
Тиспр1 / (Тиспр1 + 2 месяца) = 0.95
Тиспр2 / (Тиспр2 + 2 месяца) = 0.99
для типовых величин коэффициента готовности 0.95 и 0.99.
Получаем: Тиспр1 = 38 месяцев (3 года) и Тиспр2 = 188 месяцев (16 лет).
Таким образом, для обеспечения коэффициента готовности Кг = 0.95 необходимо применять в эксплуатируемом изделии (и его ЗИПе) блоки с ожидаемым сроком службы 3 года и при этом восполнять ЗИП не более чем за 2 месяца. Такие условия представляются реалистичными, и стратегия восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа в данном случае вполне адекватна.
Иная картина вырисовывается для Кг = 0.99. Для достижения коэффициента готовности 0.99 требуется обеспечить, чтобы либо ожидаемый срок службы всех блоков превышал 16 лет, либо ремонт при отсутствии запчастей на объекте выполнялся быстрее, чем за 2 месяца, либо всегда в течение 16 лет на объекте находился исправный ЗИП для всех блоков. Первые два требования удовлетворить при современном состоянии дел представляется нереальным. Последнее требование невозможно удовлетворить при пассивном хранении ЗИП, так как велика вероятность, что через 16 лет, когда выйдет из строя какой-то блок, его замена из ЗИП тоже окажется вышедшей из строя. Единственной возможностью удовлетворить это требование является постоянный контроль работоспособности и замена при выходе из строя всех блоков, в том числе и запасных. Способом обеспечения такого контроля является стратегия горячего резервирования.
1. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания, возможно достижение коэффициента готовности 0.95 при стратегии восстановления работоспособности изделия путём замены отказавших блоков из ЗИПа.
2. Для современной вычислительной техники, при типовых условиях эксплуатации и обслуживания для единичных изделий, достижение коэффициента готовности 0.99 невозможно путём только использования ЗИПа и требует использования горячего резервирования или другого метода постоянного контроля всех блоков, в том числе и запасных.