abc |
|
Темы:
43
Сообщения:
258
Участник с: 30 августа 2016
|
Компьютеру примерно год. Летом начались глюки с системным диском - переходит в режим read only. Систематичности и влияния запущенного ПО не заметил. Иногда весь день может работать без сбоев, иногда раз в полчаса. При этом все зависает. То, что было запущено некоторое время работает и тоже виснет или вылетает. Запустить что-то новое невозможно. Только один раз каким-то чудом смог переключиться первый TTY. Там ошибки про IO error nvme superblock write. И систем-д пишет, что не смог записать в лог. Диск ADATA SX6000LNP 128 Гб. Разделен на boot и на корень. Свободно около 20 Гб. Материнка MSI B450M PRO-VDH MAX. Процессор Ryzen 5 5600G, рамы 32 Гб. БП на 550, модель не вспомню. Месяц назад форматнул диск и переустановил арч, недельки-две глюка не было. Сейчас опять началось. В биосе все по умолчанию. SMART говорит все ок. Диск не греется. Память проверял мемтестом, все ок. Что делать? |
vs220 |
|
Темы:
25
Сообщения:
8524
Участник с: 16 августа 2009
|
В журнале что то есть по ошибкам? ну и смарт покажите
|
abc |
|
Темы:
43
Сообщения:
258
Участник с: 30 августа 2016
|
Вывод смарта:
journalctl |grep -E "dma|error|errs|re-mounted" Это 20 минут перед предыдущим зависанием, повторные убрал Очень много ошибок FFmpeg. Работал yt-dlp, наверно из-за него.Дальше ребут по кнопке. После включения:
После перезапуска есть nvme0n1p2 это корень системыСейчас аптйам ~три часа, работает без глюков |
abc |
|
Темы:
43
Сообщения:
258
Участник с: 30 августа 2016
|
И еще вот такое есть. Это я сфоткал в первом терминале после зависания. В тексте могут быть ошибки, делал онлайн распознавание текста по фото
|
vs220 |
|
Темы:
25
Сообщения:
8524
Участник с: 16 августа 2009
|
abcДля nvme дисков можно посмотреть лог утилитой из nvme-cli Глянуть лог журнала файловой системы на одних и тех же ли блоках ошибки
Попробовать переставить диск вытащить поставить обратно, можно поиграться с iommu https://wiki.archlinux.org/title/Solid_state_drive/NVMe#Controller_failure_due_to_broken_suspend_support
|
vasek |
|
Темы:
47
Сообщения:
11924
Участник с: 17 февраля 2013
|
Возможные причины - сам SSD … маловероятно - файловая система … тоже маловероятно, но проверить fsck желательно - software problems, присущие NVMe - желательно поиграться с параметрами ядра Начни с проверки fsck: - загрусись с параметром break (при использовании grub: нажать e и добавить параметр break) fsck -fn /dev/sdaX ……. n - проверка без исправления ошибок - выход после проверки - exit Если нормально, то начинай игратсья с параметрами ядра: 1. Отключить ASPM (иногда вызывает проблемы с совместимостью оборудования): pcie_aspm=off 2. Поигратся с APST - или отключить: nvme_core.default_ps_max_latency_us=0 - или увеличить задержку, установив другие значения, например, 5500 ... 100000 Узнать, что стоит по дефолту: cat /sys/module/nvme_core/parameters/default_ps_max_latency_us 3. … и другое ... PS - забыл отметить: - если используешь suspend, то попробуй пока не использовать - проверь связано ли это с повышенной нагрузкой на диск (с большим чтением/записью)
Ошибки не исчезают с опытом - они просто умнеют
|
abc |
|
Темы:
43
Сообщения:
258
Участник с: 30 августа 2016
|
nvme error-log /dev/nvme0 выдал несколько одинаковых блоков, везде successful
nvme smart-log -H /dev/nvme0 тоже порядок, за исключением символов ���. Так должно быть?
sudo debugfs -R 'logdump -S' /dev/nvme0n1p2 | more тут выдал длинную портянку, скопирую только начало, там одинаковые строки только с разным номером блока
vs220Просто отсоединить его от материнки? Сделал, понаблюдаю. vs220Это пока не понял что. Почитаю вики. fsck без ошибок. В конце вот это не понял что значит:
vasekЭто попробую, надо разобраться что куда писать cat /sys/module/nvme_core/parameters/default_ps_max_latency_us 100000 suspend не использую. Повышенной нагрузки на диск тоже нет. Иногда виснет даже когда комп остается без дела без запущенных програм. Добавлено: сейчас подумал насчет нагрузки на диск. У меня настроена синхронизация файлов на сервер некстклауда. Там много папок и файлов, возможно во время проверки измененных файлов идет большая нагрузка. Отключил на время, понаблюдаю |
vasek |
|
Темы:
47
Сообщения:
11924
Участник с: 17 февраля 2013
|
abcЭто говорит о том, что 19% файловой системы содержит фрагментированные файлы + некорректные ссылки на данные (имеются файлы, которые указывают на несуществующие блоки - точнее, файлы были удалены или перемещены, а ссылки на них не были обновлены).
Ошибки не исчезают с опытом - они просто умнеют
|
vasek |
|
Темы:
47
Сообщения:
11924
Участник с: 17 февраля 2013
|
abcВообще то это и ожидалось. NVMe практически знаю слабо, так как не использую .... но рекомендую поиграться с параметрами модуля nvme_core Смотри вывод modinfo -p nvme_core и гугли что они означают ...
Ошибки не исчезают с опытом - они просто умнеют
|
vs220 |
|
Темы:
25
Сообщения:
8524
Участник с: 16 августа 2009
|
Диск скорее всего в порядке, а вот ошибки I/O могут быть как с железными (плохой контакт, питание, мост) так и программными ошибками связаны при проблемах с latency в ошибках обычно ...timeout abcпрямой доступ к оборудованию для виртуалок, были баги с включенным (по умолчанию включен), amd_iommu=off в параметрах ядра выключает его для амд платформы |