начал сыпаться жесткий диск что делать

Записки дебианщика

В этом блоге публикуются заметки и решения, найденные в процессе работы, освоения и жизни в дистрибутиве Debian GNU/Linux.

Отчего умирают винчестеры: небольшой обзор причин выхода из строя жёстких дисков

hda: dma_intr: status=0x51 < DriveReady SeekComplete Error >
hda: dma_intr: error=0x40 < UncorrectableError >, LBAsect=35807470, high=2, low=2253038, sector=35807428
ide: failed opcode was: unknown
end_request: I/O error, dev hda, sector 35807428

В общем, я уже понемногу откладываю деньги на новый винчестер, а пока решил выяснить, почему же они помирают.

Так или иначе, я старался внимательно следить за хитросплетениями мыслей авторов статей и смог-таки кое-что выцедить оттуда.

Производитель
В исследовании говорится, что, вопреки расхожему мнению, выход из строя жёсткого диска слабо зависит от того, кто произвёл этот диск, а больше зависит от конкретного экземпляра и в меньшей степени от того, в каких условиях он эксплуатируется. В доказательство они приводят тот факт, что данные по сбоям, регистрируемым SMART, почти не зависят от того, диски чьих производителей анализируются.

Нагрузки
Дальше они приводят данные по зависимости смертности дисков от степени их загруженности (т. е. от дисковых операций).

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

График из работы «Failure Trends in a Large Disk Drive Population», Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andre Barroso, Google Inc., Appears in the Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST’07), February 2007

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

График из работы «Failure Trends in a Large Disk Drive Population», Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andre Barroso, Google Inc., Appears in the Proceedings of the 5th USENIX Conference on File and Storage Technologies (FAST’07), February 2007

Диски возраста до 2 лет чаще дохнут от холода (при температуре от 15 до 30 градусов), а старики (от 3 лет) мрут от перегрева (более 45 градусов).

Анализ данных SMART
Самые важные ошибки, на которые следует обращать внимание: Scan Error, Reallocation Count Offline reallocation Probational Count

Количество перемещений (Reallocation Count).
Если при чтении информации возникают ошибки ввода-вывода и операционная система о них сообщает, такие ошибки перехватываются SMART и сбойный сектор заменяется нормальным из набора доступных. Количество перемещений отражает износ поверхности, однако это ещё не повод бить тревогу: около 90% гугловских винчестеров имеют отличное от нуля количество перемещений, хотя при этом годовая вероятность сбоя ( Annualized Fault Rate, AFR) повышается в 3-6 раз. После первого же перемещения сбойного участка, вероятность выхода из строя в следующие 60 дней увеличивается в 14 раз.

Остальные ошибки (в том числе Seek Error) не дают заметного вклада в общую статистическую картину дисковой смертности. Примечательно, что, например, выход диска из строя слабо соотносится с количеством циклов «старт-стоп». Однако если диску более 3 лет, следует его использовать непрерывно, так как частых включениях и выключениях вероятность выхода из строя повышается на 2%.

В общем, гугловцы призывают не уповать на SMART и его в общем не высокую предсказательную силу (более 56% всех умерших дисков не имели отметок об ошибках SMART), а больше налегать на бекапы и резервирование, чем почти никто не занимается, пока жареный петух не клюнет в известное место.

Следует отметить, что в винчестерах отдельных производителей Raw_Read_Error_Rate и Seek_Error_Rate параметры достигают максимума и обнуляютя несколько раз в день. Это связанно с политикой некоторых производителей в отношении SMART: в эти параметры пишутся все ошибки, а остальные производители только те, что не смог отловить контроллер.
За информацию спасибо s7ang3r

Время наработки на отказ
Другая статья, «Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?», подробно разбирает, что такое MTTF, или mean time to failure. Статистика также очень впечатляющая (около 100.000 устройств).

Дальше в рамках исследования было вычислено значение ежегодной частоты ошибок (AFR) для всех датацентров, в которых это исследование проводилось, и вот график:
начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

График взят из работы: Bianca Schroeder, Garth A. Gibson «Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?», FAST ’07: 5th USENIX Conference on File and USENIX Association Storage Technologies.

Но и эта цифра несколько завышена: не секрет, что в дата-центрах сделано всё, чтобы оборудование работало дольше. Это и системы кондиционирования, и распределение вычислительной нагрузки, и защита от перегрева \ переохлаждения отдельных компонентов и проч. Едва ли в пользовательских машинах имеется нечто подобное, особенно это касается ноутбуков.

Разброс таких данных велик: AFR составляет от 0.5% до 13.6%, и это в дата-центрах. Последняя цифра соответствует примерно 7 годам работы винчестера, но понятно, что в бытовых устройствах эта цифра намного скромнее: постоянно меняющаяся температура устройства, небольшое время непрерывной работы, скачки напряжения, большое количество циклов «старт-стоп» и прочее сильно сокращают время жизни жёстких дисков.

Ещё один замечательный график, показывающий жизненный цикл жёстких дисков в зависимости от времени работы:
начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать
График из работы J. Yang and F.-B. Sun., «A comprehensive review of hard-disk drive reliability». In Proc. of the Annual Reliability and Maintainability Symposium, 1999.

Как остроумно назвали авторы работы такую форму графика, «bathtub curve», т.е. кривая в форме ванной 🙂

smartctl version 5.36 [i686-pc-linux-gnu] Copyright (C) 2002-6 Bruce Allen
Home page is http://smartmontools.sourceforge.net/


=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 645) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 47) minutes.

Здесь данные о том, какие тесты поддерживаются SMART в устройстве и сколько они по времени будут занимать.

А дальше идёт самое интересное.

Error 4 occurred at disk power-on lifetime: 6652 hours (277 days + 4 hours)
When the command that caused the error occurred, the device was active or idle.

Надеюсь, что эта статья поможет выяснить причину, почему сломался жёсткий диск.

Ссылки
Для дальнейшего изучения параметров SMART можно обратиться к этой ссылке, здесь говорят о SMART в целом. Эта статья также многое поможет прояснить.

Источник

Если Seagate запылился…

После прочтения статьи «Статистика Backblaze: какой HDD самый лучший» стало понятно, что Seagate Barracuda (ST3000DM001) лидер по числу отказов. Два диска именно этой модели на файловом сервере менее чем за полтора года вышли из строя практически одновременно.

Почему это произошло?
Специалист, занимающийся ремонтом техники на нашем предприятии докопался до истины и попросил рассказать о ней с целью дать рекомендации производителю для исключения подобных случаев и советы владельцам дисков данной марки. Кому советы уже не помогут, могут использовать HDD для изготовления трехтерабайтного граммофона.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Диски сыпались, и как оказалось — в прямом смысле этого слова. Это то, что осталось на столе после его разборки.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Все фотографии можно посмотреть в альбоме «Seagate Barracuda ST3000DM001». Из множества снимков можно легко понять конструкцию жесткого диска. В статье использовано лишь небольшое количество фотографий.

Буря в пустыне. Так выглядят «зеркальные» диски — результат воздействия пыли и оторвавшихся ферромагнитных частиц.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Внутренний фильтр, который должен улавливать случайно пролетающие частицы.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Причина выхода из строя жесткого диска заключалась в попадании пыли. При работе небольшое количество пылинок проникает в чистую зону, вызывая начальные разрушения, а дальше все происходит лавинообразно. Трудность заключалась в определении места проникновения пыли, но логика и внимательность делают чудеса.

Металлическая площадка в правом верхнем углу служит для крепления гибкого шлейфа и разъема на плату электроники.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Плата электроники. Два рядом расположенных отверстия в правой нижней части платы — для винтов, прижимающих контактные площадки на плате к разъему.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Плата электроники демонтирована. Разъем в правом нижнем углу.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

В правой части толщину площадки увеличивают гибкая печатная плата и токопроводящее кольцо с толстым слоем припоя. При креплении площадки со шлейфом возникает перекос из-за разной толщины.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

В результате, резиновый уплотнитель на площадке, контактирует с корпусом не по всему периметру. Место неконтакта прекрасно видно под микроскопом. Именно через это место пыль проникает внутрь диска.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Производителю данный узел необходимо доработать. Это может быть увеличение высоты уплотнителя или изменение материала, выравнивание высот площадки в районе крепления или другие приемы.
Судя по отзывам и упоминаемой выше статье, мы не являемся единственными обладателями неудавшейся модели. Может у производителей жестких дисков существует программа отзыва HDD — как у производителей автомобилей?

Как быть тем, кто уже приобрел данную модель?
Необходимо до начала эксплуатации произвести герметизацию со стороны платы электроники, путем заливки отверстия вокруг разъема герметиком. Залить необходимо аккуратно и на небольшую высоту, чтобы не нарушить гибкость подвижных контактов. Гарантия в этом случае скорее всего пострадает, но зато продлится жизнь диска.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Как быть тем, у кого жесткий диск начал сыпаться?
Все зависит от степени износа. Если он только начался, то можно попробовать произвести герметизацию. Если герметизация уже не помогает, то можно изготовить трехтерабайтный граммофон. Идея использовать диск в этом качестве не новая, но реализация с рупором и таким большим объемом еще не встречалась. Если кто не понял, то катушка сопротивлением 10 Ом, расположенная над магнитом (два крайних контакта на разъеме), подключается в качестве динамика к звуковой колонке, а дальше — дело физики.

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

начал сыпаться жесткий диск что делать. Смотреть фото начал сыпаться жесткий диск что делать. Смотреть картинку начал сыпаться жесткий диск что делать. Картинка про начал сыпаться жесткий диск что делать. Фото начал сыпаться жесткий диск что делать

Особенно «повезло» пользователям, у которых вышли из строя два жестких диска — им можно сделать стереосистему. А тем, кто в состоянии изготовить квадросистему, можно только посочувствовать, так как стоимость этих четырех «динамиков» составляет значительную сумму.

P. S. Посмотрел обсуждение статьи в различных местах интернета…
1. Насчет пыли. В статье не утверждается, что вся пыль внутри диска, это внешняя пыль. В большинстве это ферромагнитная пыль от покрытия блинов жесткого диска — практически вся осыпавшаяся пыль была собрана со стола при помощи магнита.
Внешняя пыль, проникающая через неплотность уплотнителя служит лишь инициатором начального разрушения.
2. Причины выхода HDD из строя. В нашем случае было всего два дисковода, поэтому неверно делать вывод, что обнаруженная неплотность является причиной выхода из строя всех дисков этой серии. Сказать статистику по причинам отказов могут инженеры Seagate, но они молчат как партизаны.
Большое количество дисков имеется в Backblaze и они отмечают, что эта серия особенная по количеству отказов, обещали написать об этом отдельную статью, ждем.

The Seagate Barracuda 7200.14 3 TB drives are another story. We’ll cover how we handled their failure rates in a future blog post.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *