5700xt и периодические gpu hang системы

искал чем лучше отслеживать сообщения ядра, чтобы поймать лог при паники ядра, либо sysdig либо PStore в связке с ramoops, как схватил новый ребут из-за mce
Sep 13 17:14:35 host kernel: mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 27: baa000000002080b
Sep 13 17:14:35 host kernel: mce: [Hardware Error]: TSC 0 MISC d012000200000000 SYND 5d020002 IPID 1002e00000500
Sep 13 17:14:35 host kernel: mce: [Hardware Error]: PROCESSOR 2:870f10 TIME 1600006399 SOCKET 0 APIC 0 microcode 8701021
и такой ошибки я в интернете не обнаружил

судя по всему данная проблема возникает при компиляции ядра в чруте (словил ещё один ребут), но ранее при компиляции ни разу вылетов не было.

p.s. причиной ребутов была некорретно выставленные значения таймингов оперативной памяти в биос.
хорошая мысля приходит опосля (с)
после глубокого погружения в тему и тестирования разных настроек и версий биоса, а также параметров ядра, попробовал ядро lts и "чудесным" образом перезагрузки системы прекратились.
MCE (Machine Check Exception) - это аппаратные ошибки, генерируемые cpu в момент их возникновения. И согласно DOC ошибки MCE могут возникать по разным причинам, связанным как с не соответствующими значениями напряжений питания, так и с космическими излучениями, которые способны изменить биты в модулях памяти и другими, связанными даже со сбоем программного обеспечения, которые могут привести к аппаратным ошибкам.
И если эти ошибки себя проявили (были обнаружены), то они никуда не исчезли и могут проявится и далее если такая причина/случай повторится.
Допускаю, что переход на ядро lts эти причины уменьшил, но, думаю, не на 100%.
Рекомендую установить из AUR rasdaemon и активировать его демон - пусть работает и отслеживает эти ошибки, которые всегда можно посмотреть и уточнить

PS - в части лога kernel panic - в принцпе получить его не сложно, используя ramoops, правда информации не так и много.
Ошибки не исчезают с опытом - они просто умнеют
vasek
Допускаю, что переход на ядро lts эти причины уменьшил, но, думаю, не на 100%.
так и случилось
недавно словил ошибку, но даже не совсем уверен, что указаная ошибка относится это к mce или нет
[ 2472.400255] WARNING: CPU: 4 PID: 88811 at drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c:853 amdgpu_ttm_tt_get_user_pages+0x2
45/0x2a0 [amdgpu]
[ 2472.400256] Modules linked in: cfg80211 rfkill 8021q garp mrp stp llc lm92 it87 f2fs snd_hda_codec_realtek snd_hda_cod
ec_generic ledtrig_audio snd_hda_codec_hdmi snd_hda_intel snd_intel_dspcfg soundwire_intel edac_mce_amd soundwire_generic
_allocation soundwire_cadence kvm_amd snd_hda_codec snd_hda_core kvm snd_hwdep soundwire_bus irqbypass snd_soc_core crct1
0dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel ccp crypto_simd cryptd snd_compress sp5100_tco glue_helper ac97_
bus joydev mousedev rapl mxm_wmi wmi_bmof k10temp snd_pcm_dmaengine rng_core i2c_piix4 igb dca pinctrl_amd mac_hid acpi_c
pufreq snd_aloop snd_pcm snd_timer snd fuse soundcore bpf_preload ip_tables x_tables zram ext4 crc16 mbcache jbd2 vfat fa
t xfs hid_logitech_hidpp hid_logitech_dj usbhid xhci_pci xhci_pci_renesas wmi hwmon_vid amdgpu gpu_sched ttm i2c_algo_bit
 drm_kms_helper syscopyarea sysfillrect sysimgblt fb_sys_fops cec drm agpgart overlay btrfs blake2b_generic xor raid6_pq
libcrc32c crc32c_generic crc32c_intel
[ 2472.400296] CPU: 4 PID: 88811 Comm: Cyberpunk2077.e Tainted: G        W5.10.5 #1
[ 2472.400297] Hardware name: Gigabyte Technology Co., Ltd. X570 AORUS PRO/X570 AORUS PRO, BIOS F31 12/31/2020
[ 2472.400337] RIP: 0010:amdgpu_ttm_tt_get_user_pages+0x245/0x2a0 [amdgpu]
[ 2472.400346] Code: 89 ff e8 9e 92 b5 cf 48 89 ef e8 c6 91 91 cf eb 9b 48 c7 c6 77 01 a2 c0 bf 02 00 00 00 41 bc f2 ff f
f ff e8 cd ee eb ff eb 82 <0f> 0b 41 bc f2 ff ff ff e9 75 ff ff ff 41 bc fd ff ff ff e9 6a ff
[ 2472.400347] RSP: 0018:ffffaca15dd23b90 EFLAGS: 00010282
[ 2472.400350] RAX: ffff9cc1097fc980 RBX: 0000000000000000 RCX: ffffaca15dd23b98
[ 2472.400350] RDX: 0000000000000dc0 RSI: ffff9cc1097fc980 RDI: ffff9cc076886800
[ 2472.400351] RBP: ffff9cbd4e0add80 R08: 0000000000000080 R09: ffff9cc1097fc980
[ 2472.400352] R10: ffffaca15dd23bd8 R11: 0000000000000005 R12: ffffaca15dd23ce0
[ 2472.400352] R13: ffff9cc1d0b99038 R14: ffff9cc114984300 R15: ffff9cc076886800
[ 2472.400353] FS:  0000000064463640(0000) GS:ffff9ccc3eb00000(0000) knlGS:00007fffff9f0000
[ 2472.400354] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 2472.400354] CR2: 00007f9a0d6f4000 CR3: 00000004e6360000 CR4: 0000000000350ee0
[ 2472.400355] Call Trace:
[ 2472.400364]  ? __kmalloc+0x162/0x2d0
[ 2472.400404]  amdgpu_cs_ioctl+0xb0e/0x1f40 [amdgpu]
[ 2472.400410]  ? schedule+0x33/0xd0
[ 2472.400449]  ? amdgpu_cs_find_mapping+0x110/0x110 [amdgpu]
[ 2472.400461]  drm_ioctl_kernel+0xb0/0x140 [drm]
[ 2472.400466]  ? try_to_wake_up+0x53/0x870
[ 2472.400473]  drm_ioctl+0x208/0x3a0 [drm]
[ 2472.400511]  ? amdgpu_cs_find_mapping+0x110/0x110 [amdgpu]
[ 2472.400548]  amdgpu_drm_ioctl+0x49/0x80 [amdgpu]
[ 2472.400551]  __x64_sys_ioctl+0x83/0xb0
[ 2472.400554]  do_syscall_64+0x33/0x40
[ 2472.400555]  entry_SYSCALL_64_after_hwframe+0x44/0xa9
[ 2472.400557] RIP: 0033:0x7f9a25e2ff6b
[ 2472.400557] Code: 89 d8 49 8d 3c 1c 48 f7 d8 49 39 c4 72 b5 e8 1c ff ff ff 85 c0 78 ba 4c 89 e0 5b 5d 41 5c c3 f3 0f 1
e fa b8 10 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d d5 ae 0c 00 f7 d8 64 89 01 48
[ 2472.400558] RSP: 002b:000000006445e568 EFLAGS: 00000246 ORIG_RAX: 0000000000000010
[ 2472.400559] RAX: ffffffffffffffda RBX: 000000006445e5e0 RCX: 00007f9a25e2ff6b
[ 2472.400559] RDX: 000000006445e5e0 RSI: 00000000c0186444 RDI: 0000000000000040
[ 2472.400560] RBP: 00000000c0186444 R08: 000000006445e740 R09: 000000007de70a38
[ 2472.400560] R10: 000000007dfcf380 R11: 0000000000000246 R12: 000000006445edd0
[ 2472.400561] R13: 0000000000000040 R14: 000000007de70a30 R15: 00007f99080b76d0
[ 2472.400562] ---[ end trace 266895bb205c6a8c ]---
frankyboy
не совсем уверен, что указаная ошибка относится это к mce или нет
По этому логу ничего сказать нельзя. Этот лог есть последнее, что успело записать ядро. Скорее всего это лог kernel panic … но kernel panic бывает двух типов - hard panic и soft panic.
hard panic в большинстве случаев обусловлен драйверами, когда тот пытается обратится к несуществующему или нулевому указателю, что скорее всего и наблюдается в твоем случае (в стэке Call Trace виден amdgpu и последнее, что видим в стэке - это kmalloc, хотя ядро в этом и не уверно на все 100%).
Признаки hard panic - обычно жесткое зависание компа, лог пишется не всегда (точнее редко) и его нужно вытаскивать используя ramoops.
Но интерес представляет первоначальная причина этого зависания, точнее, или виновник чисто amdgpu или это связано с MCE error. Ошибки MCE нехорошие ошибки и если они уж проявляются, то будут проявляться и дальше при возникновении определенных ситуаций.
А потому все-таки рекомендую
vasek
Рекомендую установить из AUR rasdaemon и активировать его демон - пусть работает и отслеживает эти ошибки, которые всегда можно посмотреть и уточнить.
Примерный вывод (суммарный, без уточнения)
ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.

No devlink errors.
Disk errors summary:
	0:0 has 472 errors
	0:2048 has 105 errors
	0:2064 has 9 errors
	0:5377 has 12 errors
No MCE errors.
На ошибки Disk errors внимания обращать не нужно (это фича экспериментальная)

Edit 1 - хотя не стоит исключать и тот факт, что это может быть и обусловлено багом Ryzen, у которого проблемы с C-состояниями наблюдаюся с самого начала и AMD не может решить эту проблему на протяжении длительного времени ... склонность к зависаниям у Ryzen заложена изначально.
Ошибки не исчезают с опытом - они просто умнеют
в общем, прочитал новость, что в новых дровах amdgpu_pro исправлена ошибка, приводящая к зависанию видеокарты.
в итоге зависание произошло практически моментально полсе запуска cyberpunk со следущей ошибкой, приведённой ниже.
что интересно, то ошибка mce при перезагрузке не возникла
[  293.438556] [drm:amdgpu_dm_atomic_commit_tail [amdgpu]] *ERROR* Waiting for fences timed out!
[  298.558408] [drm:amdgpu_dm_atomic_commit_tail [amdgpu]] *ERROR* Waiting for fences timed out!
[  298.568383] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* ring gfx_0.0.0 timeout, signaled seq=60553, emitted seq=60555
[  298.568475] [drm:amdgpu_job_timedout [amdgpu]] *ERROR* Process information: process Cyberpunk2077.e pid 7912 thread Cyberpunk2:cs0 pid 8014
[  298.568480] amdgpu 0000:0a:00.0: amdgpu: GPU reset begin!
[  299.104024] amdgpu 0000:0a:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring kiq_2.1.0 test failed (-110)
[  299.104111] [drm:gfx_v10_0_hw_fini [amdgpu]] *ERROR* KGQ disable failed
[  299.376204] amdgpu 0000:0a:00.0: [drm:amdgpu_ring_test_helper [amdgpu]] *ERROR* ring kiq_2.1.0 test failed (-110)
[  299.376285] [drm:gfx_v10_0_hw_fini [amdgpu]] *ERROR* KCQ disable failed
[  299.648471] [drm:gfx_v10_0_hw_fini [amdgpu]] *ERROR* failed to halt cp gfx
[  299.663244] [drm] free PSP TMR buffer
[  299.705353] amdgpu 0000:0a:00.0: amdgpu: BACO reset
[  302.847384] amdgpu 0000:0a:00.0: amdgpu: GPU reset succeeded, trying to resume
[  302.847533] [drm] PCIE GART of 512M enabled (table at 0x0000008000300000).
[  302.847613] [drm] VRAM is lost due to GPU reset!
[  302.853064] [drm] PSP is resuming...
[  302.919161] [drm] reserve 0x900000 from 0x81fe400000 for PSP TMR
[  302.990146] amdgpu 0000:0a:00.0: amdgpu: RAS: optional ras ta ucode is not available
[  302.996147] amdgpu 0000:0a:00.0: amdgpu: RAP: optional rap ta ucode is not available
[  302.996149] amdgpu 0000:0a:00.0: amdgpu: SMU is resuming...
[  302.996154] amdgpu 0000:0a:00.0: amdgpu: smu driver if version = 0x00000036, smu fw if version = 0x00000037, smu fw version = 0x002a3d00 (42.61.0)
[  302.996155] amdgpu 0000:0a:00.0: amdgpu: SMU driver if version not matched
[  302.998656] amdgpu 0000:0a:00.0: amdgpu: SMU is resumed successfully!
[  303.169133] [drm] kiq ring mec 2 pipe 1 q 0
[  303.174137] [drm] VCN decode and encode initialized successfully(under DPG Mode).
[  303.174520] [drm] JPEG decode initialized successfully.
[  303.174558] amdgpu 0000:0a:00.0: amdgpu: ring gfx_0.0.0 uses VM inv eng 0 on hub 0
[  303.174560] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.0.0 uses VM inv eng 1 on hub 0
[  303.174560] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.1.0 uses VM inv eng 4 on hub 0
[  303.174561] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.2.0 uses VM inv eng 5 on hub 0
[  303.174562] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.3.0 uses VM inv eng 6 on hub 0
[  303.174563] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.0.1 uses VM inv eng 7 on hub 0
[  303.174564] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.1.1 uses VM inv eng 8 on hub 0
[  303.174565] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.2.1 uses VM inv eng 9 on hub 0
[  303.174565] amdgpu 0000:0a:00.0: amdgpu: ring comp_1.3.1 uses VM inv eng 10 on hub 0
[  303.174566] amdgpu 0000:0a:00.0: amdgpu: ring kiq_2.1.0 uses VM inv eng 11 on hub 0
[  303.174567] amdgpu 0000:0a:00.0: amdgpu: ring sdma0 uses VM inv eng 12 on hub 0
[  303.174568] amdgpu 0000:0a:00.0: amdgpu: ring sdma1 uses VM inv eng 13 on hub 0
[  303.174569] amdgpu 0000:0a:00.0: amdgpu: ring vcn_dec uses VM inv eng 0 on hub 1
[  303.174570] amdgpu 0000:0a:00.0: amdgpu: ring vcn_enc0 uses VM inv eng 1 on hub 1
[  303.174570] amdgpu 0000:0a:00.0: amdgpu: ring vcn_enc1 uses VM inv eng 4 on hub 1
[  303.174571] amdgpu 0000:0a:00.0: amdgpu: ring jpeg_dec uses VM inv eng 5 on hub 1
[  303.178202] amdgpu 0000:0a:00.0: amdgpu: recover vram bo from shadow start
[  303.188931] amdgpu 0000:0a:00.0: amdgpu: recover vram bo from shadow done
[  303.188933] [drm] Skip scheduling IBs!
[  303.188934] [drm] Skip scheduling IBs!
[  303.188970] [drm] Skip scheduling IBs!
[  303.188973] [drm] Skip scheduling IBs!
[  303.188975] [drm] Skip scheduling IBs!
[  303.188980] [drm] Skip scheduling IBs!
[  303.188981] amdgpu 0000:0a:00.0: amdgpu: GPU reset(2) succeeded!
[  303.200533] [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
[  303.202192] audit: type=1701 audit(1612480316.457:161): auid=4294967295 uid=0 gid=0 ses=4294967295 pid=805 comm="Xorg:gdrv0" exe="/usr/lib/Xorg" sig=11 res=1
[  303.203633] [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
[  303.207775] [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
[  303.207893] [drm:amdgpu_cs_ioctl [amdgpu]] *ERROR* Failed to initialize parser -125!
AMD не использую, только иногда почитываю .... и вот эта ошибка
frankyboy
*ERROR* Failed to initialize parser -125!
встречалась, описание здесь
Ошибки не исчезают с опытом - они просто умнеют
 
Зарегистрироваться или войдите чтобы оставить сообщение.