View previous topic :: View next topic |
Author |
Message |
erich.guildenstern n00b
Joined: 19 Apr 2004 Posts: 21
|
Posted: Wed Jun 22, 2005 8:34 am Post subject: kernel panic athlon sempron |
|
|
Ciao a tutti!
Si e' verificata una cosa triste su una delle mie macchine.
Questa ha lavorato ininterrotamente per 6 mesi con una gentoo compilata per athon su hw athon-xp, poi di punto in bianco sono iniziati svariati kernel panic al giorno con frequenza crescente.
La maggior parte delle volte non c'erano log comprensibili, ma alcune di queste sulla console ho trovato quanto segue (con qualche variazione di volta in volta):
Code: |
Unable to handel kernel paging request at virtual address 000e000d
printign eip:
c020f6640
*pde=00000000
Oops: 0000[#10]
PREEMPT
Modules linked in:
CPU: 0
EIP: 0060:[<c020f640>] not tainted
EFLAGS:00010002 (2.6.7-hardened-r16)
IP is act print_context_stac+0x20/0x60
eax: 000e0010 ebx: 000e0000 ecx: c0103210 edx: 00000086
|
Ho sospettato un problema hw e, non volendo ricompilare il tutto, ho provato a mettere un sempron al posto del precedente athlon-xp; la situazione e' effettivamente migliorata e non ci sono stati kernel panic per un po'. Oggi pero' l'errore e' ritornato.
Qualcuno ha suggerimenti?
Grazie mille!
-Erich |
|
Back to top |
|
|
Thrain Guru
Joined: 01 Sep 2003 Posts: 380
|
Posted: Wed Jun 22, 2005 8:39 am Post subject: |
|
|
Può darsi che abbia a che fare con la kernel Preemption? (c'è un bel PREEMPT al centro del log...).
Prova a disattivarla... a detta di molti nel Forum, non si vedono grossi peggioramenti prestazionali Ciao! _________________ Thrain
"...only astonishment knows..." |
|
Back to top |
|
|
nick_spacca l33t
Joined: 29 May 2004 Posts: 689 Location: Paris/France
|
Posted: Wed Jun 22, 2005 8:40 am Post subject: |
|
|
tiro ad indovinare....non e' per caso un errore di memoria (RAM) invece che di processore????
Eventualmente -visto il periodo- controlla anche che la temperatura di esercizio sia decente.... _________________ I can resist anything but temptation.
(O. Wilde) |
|
Back to top |
|
|
Peach Advocate
Joined: 08 Mar 2003 Posts: 3686 Location: London, UK
|
Posted: Wed Jun 22, 2005 8:44 am Post subject: |
|
|
mi sa che quest'errore e basta non è abbastanza unico a capire cosa lo scatena... potrebbe essere il caricamento di un modulo o anche un bug del kernel...
volevo sapere... dai log, prima c'è niente?
che kernel usi? com'è sistemata la macchina in linea generica (filesystems+partizioni, tipo di kernel e configurazione, quant'altro ti viene in mente? _________________ Gentoo user since 2004.
"It's all fun and games, until someone loses an eye" - mom |
|
Back to top |
|
|
erich.guildenstern n00b
Joined: 19 Apr 2004 Posts: 21
|
Posted: Wed Jun 22, 2005 9:39 am Post subject: |
|
|
Nei log non c'e' nulla e questa e' l'unica cosa che ho trovato sulla console. Altre volte c'erano una serie di numeri incolonnati, ma proprio solo numeri.
Il ternel e' 2.6.7-hardened-r16, ed e' tutto monolitico, nessun modulo compilato.
La macchina e' un file server, quindi c'e' un raid 5 sw che si appoggia su 4 hdd sata montati su un backplane. La scheda sata e' una promise tx4 e grazie al cielo in questi reboot sporchi l'array raid si e' sempre ricostruito senza alcuna perdita di dati
Le partizioni sono:
Code: | /dev/hda1 on /boot type ext2 (rw,noatime)
/dev/hda3 on / type xfs (rw,noatime)
/dev/md0 on /mnt/store type xfs (rw,noatime)
/dev/hda2 on swap
none on /proc type proc (rw)
none on /sys type sysfs (rw)
none on /dev/pts type devpts (rw)
none on /dev/shm type tmpfs (rw)
none on /proc/bus/usb type usbfs (rw)
| Quando ho messo il Sempron3000+ ho cambiato anche scheda madre (ora Asus A7N8X-X), ram (2 chip kingston da 512 mb) ed alimentatore.
L'unico hw rimasto come prima e' la scheda sata, pero' e' il componente piu' recente rispetto a quelli cambiati ed ha una vita di circa 7 mesi.
Quello che piu' mi stupisce e' che per mesi abbia funzionato bene e poi di punto in bianco si pianti.
Ho pensato anch'io alla temperatura, ma non da' i classici segni di surriscaldamento (beep continui ecc) ed i panic sono arrivati quasi sempre di notte, cioe' nelle ore piu' fresche.
Provero' a ricompilare il kernel per togliere la preemption..... chissa'?
Qualunue suggerimento e' graditissimo, io non so piu' che pesci pigliare.
Grazie
-Erich
Peach wrote: | mi sa che quest'errore e basta non è abbastanza unico a capire cosa lo scatena... potrebbe essere il caricamento di un modulo o anche un bug del kernel...
volevo sapere... dai log, prima c'è niente?
che kernel usi? com'è sistemata la macchina in linea generica (filesystems+partizioni, tipo di kernel e configurazione, quant'altro ti viene in mente? |
|
|
Back to top |
|
|
fabius Guru
Joined: 29 Nov 2004 Posts: 525
|
Posted: Wed Jun 22, 2005 10:29 am Post subject: |
|
|
nick_spacca wrote: | tiro ad indovinare....non e' per caso un errore di memoria (RAM) invece che di processore????
Eventualmente -visto il periodo- controlla anche che la temperatura di esercizio sia decente.... |
Concordo in pieno! Anche secondo me è la memoria, prova memtest |
|
Back to top |
|
|
erich.guildenstern n00b
Joined: 19 Apr 2004 Posts: 21
|
Posted: Thu Jun 23, 2005 6:20 am Post subject: |
|
|
Lo faro', ma non credo sia quello: e' la prima cosa che mi sono premurato di controllare sostituendola con dei chip funzionanti presi da un'altra macchina. Poi quando ho cambiato hw ne ho presi di nuovi.
Ormai l'unico sospetto e' davvero la temperatura, anche se mi lascia perplesso che il problema non si verifichi nelle ore piu' calde, ma spesso di notte.
Se volessi monitorarla, come potrei fare?
Grazie!
-Erich
fabius wrote: | nick_spacca wrote: | tiro ad indovinare....non e' per caso un errore di memoria (RAM) invece che di processore????
Eventualmente -visto il periodo- controlla anche che la temperatura di esercizio sia decente.... |
Concordo in pieno! Anche secondo me è la memoria, prova memtest |
|
|
Back to top |
|
|
SilverXXX l33t
Joined: 18 Sep 2004 Posts: 885
|
Posted: Thu Jun 23, 2005 10:36 am Post subject: |
|
|
Non è sempre detto che per problemi di temperature ci siano i beep di sistema. _________________ about:mozilla |
|
Back to top |
|
|
nick_spacca l33t
Joined: 29 May 2004 Posts: 689 Location: Paris/France
|
Posted: Thu Jun 23, 2005 10:50 am Post subject: |
|
|
erich.guildenstern wrote: | (..)
Ormai l'unico sospetto e' davvero la temperatura, anche se mi lascia perplesso che il problema non si verifichi nelle ore piu' calde, ma spesso di notte.
Se volessi monitorarla, come potrei fare?
(..) |
Scartata quindi la possibilita' di problema Ram....
Per la memoria la cosa + semplice in assoluto e' abilitare l'acpi nel kernel e poi usare uno dei 1000000 tool di controllo (io uso quello integrato in GKRELLM (gkrellm che funge tra l'altro anche come demone da controllare in remoto ) ma esistono praticamente per tutti i WM) oppure molto + semplicemente usi:
Code: | nick@nick-book ~ $ cat /proc/acpi/thermal_zone/THM/*
<setting not supported>
cooling mode: critical
<polling disabled>
state: ok
temperature: 46 C
critical (S5): 101 C
nick@nick-book ~ $
|
_________________ I can resist anything but temptation.
(O. Wilde) |
|
Back to top |
|
|
|