Сбой на системном SSD накопителе

У меня 2 накопителя - обычный и SSD Corsair Force GT.
Обычный используется как архив.
SSD разбит на системный Win7, корневой Arch, home и диск подкачки.

Произошло зависание в Арче при офисной работе на компьютере с одновременной закачкой файла из "интернетов".
При загрузке полезло:
fsck failed with error code 4

В качестве виновника указывался раздел dev/sdb3 (home)
Вручную запускалось:
fsck -y - c -f  dev/sdb3

При попытке подмонтировать раздел косяком идут IO ошибки вида.
[XXX.XXXXXX] blk_update_request: I/O error, dev sdb, sector XXXXXX

Рутовый и win разделы вроде бы пашут нормально.

Есть ли у меня шансы попасть "домой" и как я это могу сделать?

"А мне так хочется вернуться в городок..." (С)
Продолжение сериала. Тогда переустановил /home/
Теперь у меня кричит системный диск - жить хочет:

...
[Jan 21 05:45:27 pampas kernel: ata2.00: exception Emask 0x0 SAct 0x7fcdffff SErr 0x0 action 0x0
Jan 21 05:45:27 pampas kernel: ata2.00: irq_stat 0x40000008
Jan 21 05:45:27 pampas kernel: ata2.00: failed command: READ FPDMA QUEUED
Jan 21 05:45:27 pampas kernel: ata2.00: cmd 60/02:b8:18:48:8a/00:00:00:00:00/40 tag 23 ncq 1024 in
                                        res 51/40:02:12:48:8a/00:00:00:00:00/40 Emask 0x409 (media error) <F>
Jan 21 05:45:27 pampas kernel: ata2.00: status: { DRDY ERR }
Jan 21 05:45:27 pampas kernel: ata2.00: error: { UNC }
Jan 21 05:45:27 pampas kernel: blk_update_request: I/O error, dev sdb, sector 9062424
Jan 21 05:45:27 pampas kernel: ata2.00: exception Emask 0x0 SAct 0x7700ffff SErr 0x0 action 0x0
Jan 21 05:45:27 pampas kernel: ata2.00: irq_stat 0x40000008
Jan 21 05:45:27 pampas kernel: ata2.00: failed command: READ FPDMA QUEUED
Jan 21 05:45:27 pampas kernel: ata2.00: cmd 60/02:c0:1e:48:8a/00:00:00:00:00/40 tag 24 ncq 1024 in
                                        res 51/40:02:32:48:8a/00:00:00:00:00/40 Emask 0x409 (media error) <F>
...
/code]
Запускал fsck, пил горькую, e2fsck, апгрейдил прошивку на SSD, ругался с женой, читал буржуйские форумы, пытался реинсталить пакеты pacman-а.
Горькая кончилась. Что делать? Возвращаться на исходную или изменить арчику с манджаро не хочется.

[code]lspci |grep ATA
00:1f.2 SATA controller: Intel Corporation 7 Series Chipset Family 6-port SATA Controller [AHCI mode] (rev 04)

Смарт включил после:
smartctl -a /dev/sdb
smartctl 6.4 2015-06-04 r4109 [x86_64-linux-4.3.3-3-ARCH] (local build)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     SandForce Driven SSDs
Device Model:     Corsair Force GT
Serial Number:    12447911000014820120
LU WWN Device Id: 0 000000 000000000
Firmware Version: 5.05
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS, ACS-2 T13/2015-D revision 3
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu Jan 21 06:01:42 2016 YEKT
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever
					been run.
Total time to complete Offline
data collection: 		(    0) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  48) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x0021)	SCT Status supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   095   095   050    Pre-fail  Always       -       36/36999885
  5 Retired_Block_Count     0x0033   100   100   003    Pre-fail  Always       -       32
  9 Power_On_Hours_and_Msec 0x0032   093   093   000    Old_age   Always       -       6305h+03m+43.870s
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       13
171 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
174 Unexpect_Power_Loss_Ct  0x0030   000   000   000    Old_age   Offline      -       227
177 Wear_Range_Delta        0x0000   000   000   000    Old_age   Offline      -       1
181 Program_Fail_Count      0x0032   000   000   000    Old_age   Always       -       0
182 Erase_Fail_Count        0x0032   000   000   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   000   000   000    Old_age   Always       -       204
194 Temperature_Celsius     0x0022   038   046   000    Old_age   Always       -       38 (Min/Max 13/46)
195 ECC_Uncorr_Error_Count  0x001c   120   120   000    Old_age   Offline      -       0/36999885
196 Reallocated_Event_Count 0x0033   100   100   003    Pre-fail  Always       -       32
201 Unc_Soft_Read_Err_Rate  0x001c   120   120   000    Old_age   Offline      -       0/36999885
204 Soft_ECC_Correct_Rate   0x001c   120   120   000    Old_age   Offline      -       0/36999885
230 Life_Curve_Status       0x0013   100   100   000    Pre-fail  Always       -       100
231 SSD_Life_Left           0x0013   100   100   010    Pre-fail  Always       -       0
233 SandForce_Internal      0x0000   000   000   000    Old_age   Offline      -       3212
234 SandForce_Internal      0x0032   000   000   000    Old_age   Always       -       2823
241 Lifetime_Writes_GiB     0x0032   000   000   000    Old_age   Always       -       2823
242 Lifetime_Reads_GiB      0x0032   000   000   000    Old_age   Always       -       3548

SMART Error Log not supported

SMART Self-test Log not supported

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Кстати, браты. Оба раза сбой SSD произошёл после скачки торрента с помощью Deluge. Может - это совпадение, а может и не.
На диске много ошибок чтения и 32 перемещённых сектора, похоже больше перемещать нечего, т.е. любой постоянный сбой будет фатальным.
я вот не знаю сработает ли на ssd, но на hdd работало.
можно протестировать ssd на бэды, что бы составить карту диска, и переразметить так что бы эти бэд блоки оказались в неразмеченной области. соответственно они не будут использоваться и вызывать сбои.
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874
Velesich
На диске много ошибок чтения и 32 перемещённых сектора, похоже больше перемещать нечего, т.е. любой постоянный сбой будет фатальным.
То есть винт можно выкинуть или использовать только для некритичных архивов? "format c:" не поможет?
nafanja
я вот не знаю сработает ли на ssd, но на hdd работало.
можно протестировать ssd на бэды, что бы составить карту диска, и переразметить так что бы эти бэд блоки оказались в неразмеченной области. соответственно они не будут использоваться и вызывать сбои.
e2fsck  -cckv /dev/sdb
запускал. Быстрый тест бэдов не выявил. Имеет смысл запустить полный тест?
Глядя на S.M.A.R.T. я критических ошибок не вижу - то что много ошибок чтения и имеются переназначенные сектора еще ни о чем не говорит (поле RAW_VALUE не стандартизовано и каждый производитель использует свои стандарты), главное, что столбец WHEN_FAILED пуст, здесь метода у всех стантартизована — сигнал об ошибке все расчитывают одинаково.
В части сообщений Libata error ….. ничего конкретного вытащить нельзя …...
media error - Software detected a media error ….(очень широкое понятие)
Сохрани важные данные, сделай полный S.M.A.R.T. (по времени будет больше часа ....доведи до конца и ничего не делай...)
smartctl -t long /dev/sd.... (или smartctl --test=long /dev/sd....)
ну и периодически анализируй динамику развития параметров S.M.A.R.T.
Ошибки не исчезают с опытом - они просто умнеют
Похожая ситуация с SSD Intel...
S.M.A.R.T. здесь, конечно, не помощник.
Тоже обновлял прошивку, оставлял 25% свободными при создании файловой системы.
Пробовал на разных компьютерах...
Решил проблему заменой диска на обычный.
Теперь жду, когда найдется накладная :)
Гарантия 5 лет :) 3 года в запасе :)
yaa, ради интереса, а что покажет команда (в смысле будет там прописано SCSI Status: Good )
$ sudo sg_raw -r 64 /dev/sg0 12 00 00 00 00 00
SCSI Status: Good
Received 64 bytes of data:
00 00 00 05 02 5b 00 00 00 41 54 41 20 20 20 20 20 ....[...ATA
10 54 4f 53 48 49 42 41 20 4d 4b 36 34 36 35 47 53 TOSHIBA MK6465GS
20 32 43 20 20 00 00 00 00 00 00 00 00 00 00 00 00 2C ............
30 00 00 00 00 00 00 00 00 00 00 00 60 03 20 02 60 ...........`. .`
PS..... с очень... очень большой долей вероятности, что так оно и будет..... но все-таки, на всякий случай...
Ошибки не исчезают с опытом - они просто умнеют
vasek
yaa, ради интереса, а что покажет команда (в смысле будет там прописано SCSI Status: Good )
$ sudo sg_raw -r 64 /dev/sg0 12 00 00 00 00 00
SCSI Status: Good
Received 64 bytes of data:
00 00 00 05 02 5b 00 00 00 41 54 41 20 20 20 20 20 ....[...ATA
10 54 4f 53 48 49 42 41 20 4d 4b 36 34 36 35 47 53 TOSHIBA MK6465GS
20 32 43 20 20 00 00 00 00 00 00 00 00 00 00 00 00 2C ............
30 00 00 00 00 00 00 00 00 00 00 00 60 03 20 02 60 ...........`. .`
PS..... с очень... очень большой долей вероятности, что так оно и будет..... но все-таки, на всякий случай...
$ sudo sg_raw -r 1k /dev/sdb 12 00 00 00 00 00
SCSI Status: Good
 
Зарегистрироваться или войдите чтобы оставить сообщение.