Редкие зависания, чистый арч (райзен??)

Проявления: редкие наглухо подвисания (мышка не работает, клава не работает, tty не пашет), даже пробовал настраивать ssh, в момент подвисания коннекта нет. Никак не зависит от приложения и нагрузки, может быть просто когда открыт браузер и больше ничего, может быть при нагрузке gimp.

Что характерно, пару раз было при просмотре ютуба. так когда все зависло, звук еще какое то время идет (секунд 5-10) как буд то то время, которое успело закешироваться.

Это было всегда с момента установки арча, на ядрах 5.0, 5.1, 5.2, 5.3. И возможно даже 4.19.

Помогает только хард ресет. Пробовал ждать минут 15, в надежде что само отвиснет, не помогало. В момент зависание, изображение на экране остается, как буд то тупо заморозили просто всё.

Случается это раз в несколько дней. Иногда неделю нормально, иногда два дня подряд.

В логах journalctl -p3 ничего такого полезного не находил (возможно подскажете как поискать лучше.)

Я больше всего грешу на первый райзен, в инете есть сообщения похожие.

Иногда при хардресете мелькает в консоли сообщения:

Aug 21 13:44:11 home-desktop kernel: mce: : Machine check events logged
Aug 21 13:44:11 home-desktop kernel: mce: : CPU 7: Machine Check: 0 Bank 5: bea0000000000108
Aug 21 13:44:11 home-desktop kernel: mce: : TSC 0 ADDR 1ffffb40dd01c MISC d012000100000000 SYND 4d000000 IPID 500b000000000
Aug 21 13:44:11 home-desktop kernel: mce: : PROCESSOR 2:800f11 TIME 1566384247 SOCKET 0 APIC 3 microcode 8001138
Aug 21 13:44:11 home-desktop kernel: mce: : CPU 10: Machine Check: 0 Bank 5: bea0000000000108
Aug 21 13:44:11 home-desktop kernel: mce: : TSC 0 ADDR 1ffffb46f42e4 MISC d012000100000000 SYND 4d000000 IPID 500b000000000
Aug 21 13:44:11 home-desktop kernel: mce: : PROCESSOR 2:800f11 TIME 1566384247 SOCKET 0 APIC b microcode 8001138

Характеристики системы (биос самый последний что есть на сегодня, всегда его обновлял, толку нет)
System:    Host: home-desktop Kernel: 5.3.7-arch1-1-ARCH x86_64 bits: 64 Desktop: KDE Plasma 5.17.0 Distro: Arch Linux
Machine:   Type: Desktop Mobo: ASUSTeK model: PRIME B350-PLUS v: Rev X.0x serial: <root required> UEFI: American Megatrends
           v: 5220 date: 09/12/2019
CPU:       Topology: 6-Core model: AMD Ryzen 5 1600X bits: 64 type: MT MCP L2 cache: 3072 KiB
           Speed: 1887 MHz min/max: 2200/3600 MHz Core speeds (MHz): 1: 1959 2: 1878 3: 1972 4: 1987 5: 1867 6: 1882 7: 1907
           8: 1913 9: 2091 10: 1862 11: 1827 12: 1893
Graphics:  Device-1: NVIDIA GM204 [GeForce GTX 970] driver: nvidia v: 435.21
           Display: x11 server: X.Org 1.20.5 driver: nvidia resolution: 1920x1080~60Hz
           Message: Unable to show advanced data. Required tool glxinfo missing.
Audio:     Device-1: NVIDIA GM204 High Definition Audio driver: snd_hda_intel
           Device-2: Advanced Micro Devices [AMD] Family 17h HD Audio driver: snd_hda_intel
           Sound Server: ALSA v: k5.3.7-arch1-1-ARCH
Network:   Device-1: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169
           IF: enp3s0 state: up speed: 1000 Mbps duplex: full mac: 88:d7:f6:e2:38:0d
           IF-ID-1: docker0 state: down mac: 02:42:d0:66:87:9f
           IF-ID-2: docker_gwbridge state: down mac: 02:42:cd:a2:6f:f7
Drives:    Local Storage: total: 2.05 TiB used: 662.93 GiB (31.5%)
           ID-1: /dev/sda vendor: Plextor model: PX-256M5Pro size: 238.47 GiB
           ID-2: /dev/sdb vendor: Western Digital model: WD20EFRX-68EUZN0 size: 1.82 TiB
Partition: ID-1: / size: 58.81 GiB used: 18.08 GiB (30.7%) fs: ext4 dev: /dev/sda2
           ID-2: /boot size: 548.9 MiB used: 56.7 MiB (10.3%) fs: vfat dev: /dev/sda1
           ID-3: /home size: 166.27 GiB used: 110.77 GiB (66.6%) fs: ext4 dev: /dev/sda4
           ID-4: swap-1 size: 8.00 GiB used: 0 KiB (0.0%) fs: swap dev: /dev/sda3
Sensors:   System Temperatures: cpu: 36.5 C mobo: N/A gpu: nvidia temp: 51 C
           Fan Speeds (RPM): cpu: 0 gpu: nvidia fan: 9%
Info:      Processes: 279 Uptime: 2h 06m Memory: 15.64 GiB used: 2.88 GiB (18.4%) Shell: bash inxi: 3.0.36

Какие советы можете дать, как отловить всё это дело? Перегрева не замечал.
Dejavu
как отловить всё это дело?
попробуй это
Ошибки не исчезают с опытом - они просто умнеют
vasek
Dejavu
как отловить всё это дело?
попробуй это
а как мне делать ps, cat, grep если клава не работает?
попробуйте параметр
pcie_aspm=off
мне на Ryzen 5 2500u помогло и избавило от ругани в dmesg об ошибке pcieport.
Также перестал отваливаться i2c тачпад после сна и волосы стали ровные и шелковистые.
Dejavu
а как мне делать ps, cat, grep если клава не работает?
не работает совсем или подвисает на время? - если совсем, то может kernel panic?
Вообщем судя по логам, проблема может быть и серъезной - сразу в логи не глянул ... глядя на логи у тебя есть ошибки, которые выдаёт MCE.
Имея ошибки MCE, обычно советуют срочно задуматься о выявлении причины и возможном поиске сбойного железа или фирмвари, если железо прошиваемое.
Вот твой код ошибок - bea0000000000108 - если преобразовать его в битовую маску и получим
10111110 10100000 00000000 00000000 00000000 00000000 00000001 00001000
Дальше нужно лезти в спецификацию или гуглить расшифровку, что это означает. По памяти: биты 0-15 это MCA Error Code, а конкретно биты: 0-3 есть сам код ошибки
В твоем случае 1000 что соответствует коду 8 … а вот что этот код означает, не помню.
Раньше была утилита mcelog, которая вела все записи ошибок MCE, сейчас ее вроде бы нет, заменили какой то другой … вообщем поищи в Wiki MCE
И советую погулить по этим ошибкам логов, чтобы понять что к чему.

PS - будет время, посмотрю что это за код ... нашел эту Wiki MCE - так и есть mcelog выкинули, в подробности не лез, но похоже сейчас эти ошибки автоматом идут в журнал. Но там есть ссылка на другую утилиту из AUR, можно и ей попользоваться, может даст больше информации.

EDIT 1 - вообщем, писал по памяти и, конечно, ошибся в части битов 0:3 - на самом деле, как и писал код ошибок это биты 15:0, то есть в твоем случае это
00000001 00001000
Вот что на этот счет написано в спецификации
MCA (machine-check architecture) error code field, bits 15:0 — Specifies the machine-check architecture-defined error code for the machine-check error condition detected. The machine-check architecture-defined error codes are guaranteed to be the same for all IA-32 processors that implement the machine-check architecture. See Section 15.9, “Interpreting the MCA Error Codes,” and Appendix E, “Interpreting Machine-Check Error Codes”, for information on machine-check error codes.
В секции (таблице) 15.9 твоего кода нет, а отсылают к приложению Е (там эти коды, насколько я понял, приведены в зависимости от процессора) ... и этого приложения в спецификации нет.
Ошибки не исчезают с опытом - они просто умнеют
Dejavu
Перегрева не замечал
А раз ошибка аппаратная, плюс к этому судя по битовой маске (биты 52:38 равны нулю) ни одна ошибка не была исправлена, то скорее всего ошибка все-таки связана с перегревом, возможно связано с дефектом ... рекомендую наблюдать, особенно когда запускаешь тяжелые приложения. А вообще для теста попробуй поработать без особых нагрузок несколько дней ... если зависаний не будет, пробуй запускать тяжелые приложения, да лучше по одному, а не сразу все.
Ошибки не исчезают с опытом - они просто умнеют
Загуглилась твоя ошибка - Ryzen Instability MCE bea0000000000108? What do do next? - но не вникал, не для меня - у меня Intel
Ошибки не исчезают с опытом - они просто умнеют
Morisson
мне на Ryzen 5 2500u помогло и избавило от ругани в dmesg об ошибке pcieport.
у меня вроде в логах не видел ошибок связанных с pcieport

vasek
то скорее всего ошибка все-таки связана с перегревом
не перегрева точно нет, я пробовал руками, да и потом иногда тяжелые приложения работают часами, а иногда после загрузки через 10 минут бац и зависло.
vasek
Загуглилась твоя ошибка
я вот находил эту муть на арч форуме английском с какими то c6-настройками, так и не понял чето в биосе там отрубить нужно, но честно этот варик не пробовал.
Dejavu
с какими то c6-настройками, так и не понял чето в биосе там отрубить нужно
Это к Morisson - он с этим экспериментировал, даже топик на эту тему был - поищи.
Ошибки не исчезают с опытом - они просто умнеют
Память в разгоне?
 
Зарегистрироваться или войдите чтобы оставить сообщение.