View previous topic :: View next topic |
Author |
Message |
sbranz n00b
![n00b n00b](/images/ranks/rank_rect_0.gif)
Joined: 03 Jul 2007 Posts: 69
|
Posted: Fri Dec 21, 2007 1:31 pm Post subject: kernel panic "hardware error machine check exception&qu |
|
|
salve ho messo vanilla-source 2.6.24-rc5 ieri, dopo circa 24 ore di uptime il pc è morto restituendo kernel panic in questo modo:
Hardware error
CPU 1: machine check exception
etc.. alcuni numeri e codici che nn ho scritto per la lunghezza...
mi suggerisce alla fine di provare con mcelog --ascii
Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash?
grazie a tutti ![Razz :P](images/smiles/icon_razz.gif) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
randomaze Bodhisattva
![Bodhisattva Bodhisattva](/images/ranks/rank-bodhisattva.gif)
![](images/avatars/191195238462262e08ea92.jpg)
Joined: 21 Oct 2003 Posts: 9985
|
Posted: Fri Dec 21, 2007 2:18 pm Post subject: Re: kernel panic "hardware error machine check exceptio |
|
|
sbranz wrote: | Ho fatto un emerge mcelog..come devo procedere ora per capire il motivo del crash? |
Hai fatto emerge quindi é ripartito?
Se si prova a ritornare al kernel di prima e controlla se il problema si ripresenta... _________________ Ciao da me! |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
.:deadhead:. Advocate
![Advocate Advocate](/images/ranks/rank-G-1-advocate.gif)
![](images/avatars/137562117341c040a92de3d.png)
Joined: 25 Nov 2003 Posts: 2963 Location: Milano, Italy
|
Posted: Fri Dec 21, 2007 2:20 pm Post subject: |
|
|
forse il tool aiuta quando hai loggate da qualche parte i log di queste MachineCheckException .
Il dubbio che mi sorge è: non potrebbe essere che si stà friggendo il proc ? _________________ Proudly member of the Gentoo Documentation Project: the Italian Conspiracy !
Last edited by .:deadhead:. on Fri Dec 21, 2007 3:50 pm; edited 1 time in total |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
sbranz n00b
![n00b n00b](/images/ranks/rank_rect_0.gif)
Joined: 03 Jul 2007 Posts: 69
|
Posted: Fri Dec 21, 2007 3:26 pm Post subject: |
|
|
si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate...
cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile...insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile...
cmq che rottura del CAZZO...
ah dimenticavo ho una Asrock AliveNF6-dvi un athlon64 4200+ e il controller della scheda madre è nforce430
io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/ |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
!equilibrium Bodhisattva
![Bodhisattva Bodhisattva](/images/ranks/rank-bodhisattva.gif)
![](images/avatars/10751772074409c2c3ce8ec.png)
Joined: 06 Jun 2004 Posts: 2109 Location: MI/BG/LC
|
Posted: Sat Dec 22, 2007 10:35 am Post subject: |
|
|
sbranz wrote: | si il pc riparte tranquillo...ora sto facendo un pacco di test al pc per escludere l'hardware...in pratica ho notato che sul kernel ci sono alcune voci relative al mce features di athlon....etc.etc..dopo i test ricompilo senza quelle voci selezionate... |
è meglio se le tieni abilitate, servono appunto a "proteggerti" in caso di problemi gravi di tipo hardware e dove possibile (RAM) a correggere l'errore evitando conseguenze nefaste per tutto il tuo sistema.
sbranz wrote: | cmq ho scoperto un altra cosa, quel kernel panic era praticamente un anomalia che il processore ha riscontrato in TSC che penso sia il timercounter qualcosa simile.. |
il TSC è un timer ad alta risoluzione, ed essendo una funzione built-in della CPU non può avere "anomalie con la CPU"; è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne (come è giusto che sia visto che non sa più dove pescare un tick, quindi per lui il tempo si è fermato); ciò mi fa dedurre che hai un problema sul system bus della tua MOBO che impedisce il regolare scambio di informazioni tra CPU e il resto delle periferiche.
sbranz wrote: | insomma in poche parole mce abilitato nel kernel fa in modo che il processore comunichi al kernel ogni minimo problema riscontrato con l'hardware e il kernel comunica l'errore e al peggio va in panic quando il problema che gli presenta la cpu non è risolvibile... |
tutti gli errori rilevati dalla MCE sono fatali (fatta eccezione per quelli rilevati nella lettura/scrittura di dati corrotti in RAM dove, se possibile, vengono risolti dal kernel) e possono essere risolti soltanto con un soft-reboot; le cpu AMD hanno un sistema di MCE più evoluto rispetto a quello Intel e in alcuni casi specifici (problemi sugli interrupts e la loro latenza) è in grado di risolvere il problema senza freezare il sistema.
sbranz wrote: | cmq che rottura del CA**O... |
modera il tuo linguaggio per favore.
sbranz wrote: | io spero che sia riconducibile solamente al fatto che 2.6.24-rc5 ha qualche giorno di vita...perchè senno' la vedo brutta..scheda madre nuova :/ |
di recente lo stesso Linus ha detto che lo sviluppo del ramo .24 va a rilento perchè non tutti i regression test sul kernel sono stati conclusi, va da se che usare il ramo .24 comporta *sicuramente* problemi di stabilità. _________________ Arch Tester for Gentoo/FreeBSD
Equilibrium's Universe
all my contents are released under the Creative Commons Licence by-nc-nd 2.5 |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
djinnZ Advocate
![Advocate Advocate](/images/ranks/rank-G-1-advocate.gif)
![](images/avatars/3978748614ef08bfa7f764.jpg)
Joined: 02 Nov 2006 Posts: 4831 Location: somewhere in L.O.S.
|
Posted: Sat Dec 22, 2007 5:48 pm Post subject: |
|
|
se nel bios hai un parametro per contenere le interferenze (spread spectrum o qualcosa del genere) attivalo e verifica il valore di clock dell'hpet, nel caso abbassalo.
Verifica inoltre l'alimentazione (compatibilità UPS/alimentatore, condizioni dell'alimentatore etc.) e tieni conto che le luminarie natalizie possono comportare gravi abbassamenti di tensione ed interferenze.
Vedi anche che tra i friver per RTC a parte il pc cmos base non è che uno vale l'altro, verifica che siano quelli corretti e vedi bene quali driver hai attivato per l'EDAC e se hai una cpu amd vedi che X86_MCE_P4TERMAL deve essere impostato a N. _________________ scita et risus abundant in ore stultorum sed etiam semper severi insani sunt
mala tempora currunt...mater stultorum semper pregna est
Murpy'sLaw:If anything can go wrong, it will - O'Toole's Corollary:Murphy was an optimist ![Wink :wink:](images/smiles/icon_wink.gif) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
sbranz n00b
![n00b n00b](/images/ranks/rank_rect_0.gif)
Joined: 03 Jul 2007 Posts: 69
|
Posted: Thu Jan 03, 2008 2:13 pm Post subject: |
|
|
grazie ad equilibrium per la spiegazione esaustiva
in effetti anche io ho pensato al bus..essendo poi una asrock, avevo pensato di aggirare il problema cambiando scheda madre. Il problema è che anche sulle asus c'è nforce e siccome il controller MCP61 è supportato e corretto con NCQ dal ramo .24 non risolverei in ogni caso il mio problema. Dovrei forse sperare che esca il .24 stabile.
Per quando riguarda djinnZ ho quella roba dello spread spectrum era gia attivata, anche il resto nel kernel penso sia tutto ok. Non vorrei arrendermi all'idea di buttare la scheda madre ma credo che alla fin fine faro' così...
Quote: | è più probabile che il kernel linux per qualche motivo non sia più stato in grado di determinare la sincronizzazione temporale in modo esatto e se hai abilitato il dynticks (NO_HZ) il kernel va in panne |
questo NON era attivo sai? ora provo ad attivarlo..anche perche non riesco piu a farlo andare in panico come la prima volta..ora si freeza senza motivo lampeggiano solo le lucette della tastiera, se riuscissi a farlo crashare nuovamente con quell'errore mce magari potrei loggare e cercare meglio la soluzione..
grazie a tutti per l'aiuto vi terrò informati ![Razz :P](images/smiles/icon_razz.gif) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
bandreabis Advocate
![Advocate Advocate](/images/ranks/rank-G-1-advocate.gif)
![](images/avatars/188011968046698f5684c86.jpg)
Joined: 18 Feb 2005 Posts: 2495 Location: イタリアのロディで
|
Posted: Wed Mar 30, 2011 2:15 pm Post subject: |
|
|
Bugiardo.
Mica ci hai tenuti informati? _________________ Il numero di post non fa di me un esperto! Anzi! |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
|