диагностика_винчестера_после_покупки - 23 Марта 2012

Меню сайта

Мини-чат

Статистика

Онлайн всего: 1

Гостей: 1

Пользователей: 0

Форма входа

Главная » 2012 » Март » 23 » диагностика_винчестера_после_покупки

13:29

диагностика_винчестера_после_покупки

http://jakshi.org.ua/dokuwiki/%D0%B4%D0%B8%D0%B0%D0%B3%D0%BD%D0%BE%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%D0%B2%D0%B8%D0%BD%D1%87%D0%B5%D1%81%D1%82%D0%B5%D1%80%D0%B0_%D0%BF%D0%BE%D1%81%D0%BB%D0%B5_%D0%BF%D0%BE%D0%BA%D1%83%D0%BF%D0%BA%D0%B8

После покупки винчестера, вне различия от цели применения оного, имеет смысл протестировать покупку на предмет ошибок и ежели оные найдутся, сдать жесткий диск в гарантию до того как у вас посыпется созданная на нем файловая система с ценными файлами.
В этой статье расскажу как это сделать в linux.

Просмотр SMART атрибутов.

Первым делом имеет смысл посмотреть SMART.
это достаточно просто:

smartctl -A /dev/sdX

Выведет что то, наподобие:

smartctl 5.39.1 2010-01-28 r3054 [i686-pc-linux-gnu] (local build)
Copyright (C) 2002-10 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
 3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 6108
 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 47
 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
 7 Seek_Error_Rate 0x002e 100 253 051 Old_age Always - 0
 9 Power_On_Hours 0x0032 077 077 000 Old_age Always - 16822
 10 Spin_Retry_Count 0x0032 100 253 051 Old_age Always - 0
 11 Calibration_Retry_Count 0x0032 100 253 051 Old_age Always - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 47
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 21
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 47
194 Temperature_Celsius 0x0022 112 103 000 Old_age Always - 38
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 051 Old_age Offline - 0

Возьмите на заметку, что чистый SMART хороший признак, но винчестер все еще может содержать ошибки. А вот ошибки в SMART - говорят о том что:

информацию с винчестера нужно слить
винчестер продиагностировать
и по возможности заменить, или по крайней мере использовать для хранения информации с которой вы расстаненесь без сожаления

Теперь о значениях SMART. Три значения VALUE, WORST и THRESH это:

VALUE - значение атрибута, так же RAW_VALUE (RAW_VALUE - значение сохраненное в формате производителя диска, от производителя к производителю формат RAW_VALUE может меняться).
WORST - наихудшее значение атрибута бывшее за время жизни диска
THRESH - пороговое значение, после которого считается что диск вот-вот выйдет из строя.

Типы параметров:

Old_age - Параметр, ухудшение которого как правило связан с возрастом накопителя. т.е. считается что это в основном болезни старости.
Pre-fail - Параметр который может ухудшиться в любое время. То есть, так сказать внезапная болезнь ))

Критическими являются параметры:

Raw_Read_Error_Rate - ошибка при чтении
Seek_Error_Rate - ошибка при позиционировании
Reallocated_Sector_Ct - количество сбойных секторов, подмененных резервными секторами.
Current_Pending_Sector - количество секторов, кандидатов на замену.
Reallocated_Event_Count - количество событий замены.
Offline_Uncorrectable - количество секторов которых не удалось скорректировать/заменить.

Параметры которые могут быть важными для жизнеспособности диска:

Spin_Up_Time - Время раскрутки диска. Если этот параметр начинает деградировать, значит у диска проблемы с раскручиванием.
Spin_Retry_Count - количество повторных раскручиваний диска до рабочей скорости, если предыдущая попытка провалилась. Если отлично от 0 - может быть сигналом о проблемах, например, с мотором.
UDMA_CRC_Error_Count - ошибки передачи информации. Причина может быть в кабеле или контроллере.
Calibration_Retry_Count - Попытки рекалибровки, если предыдущая попытка провалилась. Если этот параметр ухудшается - скорее всего проблемы с механикой.

Остальные параметры:

Start_Stop_Count - Количество запусков и остановок двигателя
Power_On_Hours - Количество часов в включенном состоянии. Кстати если новый диск имеет странно большее значение Power_On_Hours - это настораживает.
Power_Cycle_Count - Количество включения и выключений диска.
Temperature_Celsius - температура.
Power-Off_Retract_Count - Число автоматических парковок головок жесткого диска, в результате выключения питания.
Load_Cycle_Count - Число перемещений головок диска в парковочную область.

Утилита smartctl, так же позволяет запустить самотестирование диска. При этом диск протестирует свое здоровье самостоятельно.
Существует короткий и длинный тест, отличаются временем - около 2 минут или около 2 часов, и тщательностью.
Что бы запустить тест, нужно набрать:

smartctl -t short /dev/sdX

Для короткого теста (около 2 минут), или:

smartctl -t long /dev/sdX

Для длинного теста (около 2 часов). В выводе команды smartctl обычно будет указано сколько примерно будет идти тест.
По окончанию этого времени можно посмотреть результаты тестов командой:

smartctl -l selftest /dev/sdX

И напоследок, всю SMART информацию можно посмотреть командой:

smartctl -a /dev/sdX

Проверка чтения всей поверхности диска

Выполняется достаточно просто:

dd if=/dev/sdX of=/dev/null bs=64k conv=noerror

или если хочется следить как продвигается процесс, то:

dd if=/dev/sdX of=/dev/null bs=1024k conv=noerror > ~/dd.log 2>&1
watch -n5 pkill -USR1 ^dd$ 
watch -n5 tail -n 40 ~/dd.log

Если будет выдавать I/O errors, значит что то плохо.
Смотрим /var/log/messages и смотрим там ошибки. Ошибки могут быть как при чтении с поверхности жесткого диска (bad блоки), так и при работе электронники диска и контроллера на материнской плате, даже SATA кабель может быть причиной ошибок.
У меня bad блоки выглядели в /var/log/messages примерно таким образом:

Nov 11 10:53:20 manumba kernel: ata2.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
Nov 11 10:53:20 manumba kernel: ata2.00: irq_stat 0x40000008
Nov 11 10:53:20 manumba kernel: ata2.00: failed command: READ FPDMA QUEUED
Nov 11 10:53:20 manumba kernel: ata2.00: cmd 60/00:00:68:7d:c0/02:00:aa:00:00/40 tag 0 ncq 262144 in
Nov 11 10:53:20 manumba kernel: res 41/01:00:48:7e:c0/00:00:aa:00:00/40 Emask 0x401 (device error) <F>
Nov 11 10:53:20 manumba kernel: ata2.00: status: { DRDY ERR }
Nov 11 10:53:20 manumba kernel: ata2.00: configured for UDMA/133
Nov 11 10:53:20 manumba kernel: ata2: EH complete 
...
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092745
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092746
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092747
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092748
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092749
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092750
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092751
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092752
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092753
Nov 11 10:53:51 manumba kernel: Buffer I/O error on device sdb, logical block 358092754

Любопытно что linux последовательно снижал скорость переадчи данных на шине при каждой ошибке.
по окочанию проверки, можно посмотреть SMART.
Если ошибки при тестировании диска с помощью dd отсутствуют, то можно торжественно вводить диск в эксплуатацию.
В ином же случае, если при проверки чтения с помощью dd возникли ошибки, можно переходить к следующему этапу (ну и готовится сдавать диск в гарантию и т.д.):

Проверка диска с помощью MHDD

Если уже выяснилось что с диском плохо, и любопытно посмотреть какое оно это плохо, то стоит использовать одну из специализированных программ для проверки дисков:

Буду пользоваться программой MHDD, потому что при сдаче диска в гарантию, проще сказать что ты протестировал MHDD и он нашел то-то и то-то, чем сказать что протестировал, к примеру, HDAT2 который как MHDD только лучше.
На момент написания статьи последняя версия MHDD - 4.6.

Обратите внимение что режим доступа к диску в BIOS надо выставить в IDE, в режиме AHCI возможны проблемы.

Можно скачать iso с последней версией MHDD с сайта MHDD, но мы пойдем еще более удобным путем, скачав Hiren boot CD, где есть все вышеупомянутые программы и даже больше.
Скачать Hiren boot CD можно тут.
Прожигаем диск и загружаемся с него, запускаем MHDD.
После запуска с помощью комбинации Shift-F3 выбираем что будем тестировать.
Экран выбора выглядит примерно так:

Кое какие моменты выбора требуют разьяснения:

PC-3000 – это специализированная плата для работы с жесткими дисками, у вас она вряд ли есть.
По умолчанию MHDD предлагает на выбор только Master каналы, если хочется выбирать Slave каналы - указывайте четные значения. Они могут отсутствуют в предложенных к выбору, но выбрать их можно 8) MHDD хакерская программа.

Имеет смысле просмотреть документацию на Сайте программы.
После выбора диска можно набрать ID и EID (или F2 и Shift-F2) и посмотреть вывод, в котором описаны параметры диска. Убедиться что тестируется нужный диск.
Потом с помощью команды SCAN (или F4) можно запустить сканирование на bad блоки.
Экран сканирования выглядит примерно так:

У меня на одном из свежекупленных жестких дисков, были найдены, к примеру, bad блоки ABRT и AMNF, примерная расшифровка:

AMNF (неправильный адресный маркер,) это уже не лечится перезаписью, маркер не возможно переписать, Но тем не менее хард не будет их преназначать, пока не последует попытка записи.
ABRT (отказ от выполнения команды) это уже серьезные разрушения сервометок. Головки теряют орентацию, где находятся. Переназначить такие области, сам хард уже не сможет. Только технологическими заводскими процедурами, возможно удастся их скрыть в заводской лист дефектов.

Подробнее смотрите на:

Кроме знаков и букв обозначающих различные типы ошибок на диске,MHDD помечает сектора с разным временем чтения разноцветными квадратами.
Сектора с временем чтения более 50 мс, на современном винчестере это плохо, вероятно там скоро будут bad блоки.
Сектора с временем чтения более 500 мс - это уже почти готовый bad блок.
После обычного сканирования можно:

сделать сканирование с remap-ом. Дело в том что диск заменяет сбойные сектора, запасными из резервной области, только при попытке записи в сбойный сектор. Значит что бы вызвать перемещение секторов в резервную область нужно писать на сбойные сектора, тогда жесткий диск попробую их переназначить. Собственно сканирование с remap - это обычное сканирование, но если встречается сбойный сектор, MHDD пробует на него записать что нибудь, что бы подтолкнуть remap этого сектора.
сдать диск на гарантию 8)