Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
Brauche Hilfe bei der Diagnose von Systemabstürzen
View unanswered posts
View posts from last 24 hours
View posts from last 7 days

 
Reply to topic    Gentoo Forums Forum Index Deutsches Forum (German)
View previous topic :: View next topic  
Author Message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Fri Feb 27, 2009 10:34 am    Post subject: Brauche Hilfe bei der Diagnose von Systemabstürzen Reply with quote

Hallo,

ich habe hier ein extrem großes Sorgenkind als einen Server beim Kunden stehen. Ich stehe da vor einem großen Rätsel und weiss z.Zt. nicht wie ich anfangen kann das Problem einzugrenzen.

Folgender IST-Zustand:
Das Teil ist ein Fujitsu Siemens PRIMERGY TX300 S4 mit XEON QuadCore und aktivem Raid-Controller (RAID1)
Als Basis läuft da ein Gentoo Linux 2.6.27-xen-r2 mit einem XEN Hypervisor. Als Gäste kommen zwei Windows 2003 Server, ein Linux Mailserver und eine Windows XP Professional Arbeitsstaion. Festplattenmanagement wird über lvm gelöst.

Jetzt das Problem:
Sporadisch (ein mal im Monat oder auch öfter) schmiert die Kiste ab - und zwar komplett! Der Bildschirm ist schwarz. er reagiert auf null und mir bleibt nichts weiter übrig als die Kiste neu zu starten. Extrem ärgerlich, da in der Zwischenzeit die komplette EDV tot ist.

Meine Frage ist nun wie ich den Fehler in so einem Fall finden kann. Ich bekomme ja kein Kernel-Panic oder irgendwas anderes in die Hand womit ich was anfangen könnt. Das Ding ist irgendwann einfach dunkel und das wars.

Ich bin hier echt für JEDE Hilfe oder Gedankenanstoß dankbar. Ich vermute ja eher einen Hardwaredefekt - aber wissen tu ich es nicht

Gruß,
Martin
Back to top
View user's profile Send private message
Max Steel
Advocate
Advocate


Joined: 12 Feb 2007
Posts: 2270
Location: My own world! I and Gentoo!

PostPosted: Fri Feb 27, 2009 11:24 am    Post subject: Reply with quote

Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<
In der Zwischenzeit solltest du für ein ServiceModell sorgen.

Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten.
Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.
Und ob es damit irgendwie reproduzierbar wird.
_________________
mfg
Steel
___________________

Heim-PC: AMD Ryzen 5950X, 64GB RAM, GTX 1080
Laptop: Intel Core i5-4300U, 16GB RAM, Intel Graphic
Arbeit-PC: Intel i5-1145G7, 16GB RAM, Intel Iris Xe Graphic (leider WSL2)
Back to top
View user's profile Send private message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Fri Feb 27, 2009 11:44 am    Post subject: Reply with quote

Max Steel wrote:
Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<
In der Zwischenzeit solltest du für ein ServiceModell sorgen.

Nein, leider nicht. Der Server ist der Kern der ganzen EDV-Anlage dort. Okay, das Einzige was ich machen könnte wäre den Server am Freitag Abend mit nach Hause nehmen und ihn am Montag früh wieder hin zu stellen. Das ginge schon. Alles andere wäre nicht drin. Ohne das Ding geht da quasi gar nichts :)

Quote:
Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten.

Okay, das wäre zumindest mal ein Test für die CPU und den Speicher. Wie bekomme ich andere Komponenten des Systems getestet? Vor allem den Festplattencontroller?

Quote:
Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.
Und ob es damit irgendwie reproduzierbar wird.

Das ist genau das Problem - /var/log/messages schweigt über das Problem ganz solide hinweg:
Quote:
Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly)
Feb 27 11:17:45 server syslog-ng[4125]: syslog-ng starting up; version='2.0.9'


um 11:00:01 macht er noch die cron.hourly und anschließend ist er weggeklatscht. Der nächste Eintrag ist schon der Anfang vom Reboot. Und /etc/cron.hourly ist leer.

Kann man in den Kernel noch irgendwelche Optionen hinzu "buchen", die einen Loggen von sich ankündigenden Fehlern wahrscheinlicher macht?
Back to top
View user's profile Send private message
flammenflitzer
Advocate
Advocate


Joined: 25 Nov 2003
Posts: 3536
Location: Berlin

PostPosted: Fri Feb 27, 2009 2:09 pm    Post subject: Reply with quote

Ich hatte ein ähnliches Problem mit meinem Rechner. Wurde mitunter zu warm. Habe den Gehäusedeckel entfernt, dann lief die Kiste.
Back to top
View user's profile Send private message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Fri Feb 27, 2009 3:02 pm    Post subject: Reply with quote

versuche mich gerade an den hwmon-Sache aus dem Kernel. Der Server hier sollte eigentlich kein thermisches Problem haben. Bei all den Lüftern die der da hat...
Back to top
View user's profile Send private message
Hollowman
Guru
Guru


Joined: 19 Apr 2007
Posts: 584

PostPosted: Fri Feb 27, 2009 3:32 pm    Post subject: Reply with quote

Hi

Wenn der nen thermisches Problem hätte, würde er ganz aus gehen und nicht weiterlaufen.

Ist das immer die selbe Zeit an der die Kiste ab schmiert? Schmiert er auch wenn keine Gäste laufen?
Kommst du beim Absturz auf kein System mehr oder sind nur die Gäste tot?

Quote:
Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<


Das muss ich aber nicht verstehen? Was für Arbeiten kann er denn in der Firma nicht machen?

Ich würde erst ma ein bisschen mit den Gästen spielen. Also am besten alle ma einzeln testen. Jeweils mit dem Gast richtig Last produzieren.

Quote:
Vor allem den Festplattencontroller?


Kopier ma von einem Gast zu nem anderen viele kleine Dateien. Irgendwelche Home Dirs oder sowas.

Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen

Sebastian
Back to top
View user's profile Send private message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Fri Feb 27, 2009 4:04 pm    Post subject: Reply with quote

Die Zeit der Abstürze ist leider komplett unterschiedlich. Mal nachts, mal tagsüber, mal früh morgens und mal am nachmittag.
Ich kann allerdings nicht sagen ob er auch abschmieren würde wenn keine Gäste laufen. Dieses Problem tauchte jedenfalls das erste mal im Echtbetrieb auf und seit jeher müssen da auch die Gäste laufen. Kann den Server also nicht mal ne Woche oder nen Monat ohne Gast laufen lassen. Die Abstände zwischen den Abstürzen sind ja leider auch relativ lang (zwischen einer guten Woche und einem Monat)

Wenn das Teil abschmiert ist jedenfalls der ganze Server unansprechbar. weder dom0 noch die domUs sind ansprechbar. Ping geht nicht mehr und lokal an der Konsole anmelden geht ebenfalls nicht (schwarzer Bildschirm. Lässt sich mit keinerlei Tastendruck reaktivieren - also auch kein Bildschirmschoner). Der ganze Server kommt mir dann so vor, als würde er zwar angeschaltet sein, aber auf absolut null Input reagieren.

Das mit der Last von Gast zu Gast kann ich ja mal versuchen. Genauso wie ich das mit dem cpuburn und memtest mal ausprobieren werde
Back to top
View user's profile Send private message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Fri Feb 27, 2009 4:06 pm    Post subject: Reply with quote

Hollowman wrote:
Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen

Da liegen sonst keine brauchbaren Logs mehr herum. /var/log/messages ist eh das Sammalfass für alles was dem syslog über den Weg läuft.
Back to top
View user's profile Send private message
Anarcho
Advocate
Advocate


Joined: 06 Jun 2004
Posts: 2970
Location: Germany

PostPosted: Fri Feb 27, 2009 7:02 pm    Post subject: Reply with quote

Du könntest dir dieses hier mal ansehen:

http://lkcd.sourceforge.net/

Ich selber habe auch so ein Teil. Läuft seit 3 Jahren und schmiert alle 2 - 3 Monate mal ab. Damit ich damit nicht soviel Ärger habe, habe ich folgendes gemacht:

In die Datei /etc/sysctl.conf:

Code:
kernel.panic = 2


Dadurch startet der Rechner nach einem Kernel-Panic nach 2 Sekunden neu. Du musst den Rechner einmal neubooten damit das aktiv ist oder per sysctl manuell setzen.

Wie gesagt, ist keine Lösung, mildert das Problem aber eventuell etwas ab. Ich lasse mir bei jedem Booten ne Email schicken damit ich den Restart mitbekomme.... Bin einfach zu faul dort nach ner Lösung zu suchen da ich den Server eigentlich schon vor 2 Jahren austauschen wollte.
_________________
...it's only Rock'n'Roll, but I like it!
Back to top
View user's profile Send private message
BlackEye
l33t
l33t


Joined: 04 Dec 2002
Posts: 756
Location: Germany

PostPosted: Sat Feb 28, 2009 6:13 pm    Post subject: Reply with quote

Das mit dem lkcd klingt interessant. Ich denke das werde ich mal aktivieren. Wenn es ein vom Kernel oder System verursachter Absturz sein sollte, dann hoffe ich damit die Sache etwas zu lichten. Ist es ein HW Problem wird es mir vermutlich gar nichts bringen. Aber dann wird die Sache vielleicht klarer und weist eher auf ein HW-Defekt hin. Mal sehen.

Danke erstmal für die Tipps!
Back to top
View user's profile Send private message
Mr. Anderson
l33t
l33t


Joined: 22 Apr 2004
Posts: 762

PostPosted: Sat Feb 28, 2009 6:38 pm    Post subject: Reply with quote

Ist denn jedes Mal das Letzte, was noch zu sehen ist

Code:
Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly)


oder ist das unterschiedlich?

Bin kein Kernel-Hacker, mir sind vorhin aber in der Config ein paar Dinge aufgefallen, die vllt. nützlich sind, zumindest sofern es ein Kernel-Problem ist. Schlägt wohl in dieselbe Kerbe wie LKCD:

CONFIG_MAGIC_SYSRQ
CONFIG_DEBUG_KERNEL
->CONFIG_DETECT_SOFTLOCKUP
->CONFIG_BOOTPARAM_SOFTLOCKUP_PANIC
CONFIG_WATCHDOG
Back to top
View user's profile Send private message
Hollowman
Guru
Guru


Joined: 19 Apr 2007
Posts: 584

PostPosted: Sat Feb 28, 2009 6:49 pm    Post subject: Reply with quote

Hi

Was mir spontan noch einfällt. Du könntest mit cron alle paar Minuten ps in ne Datei schreiben lassen. Dann erkennst du ob vielleicht ein Prozess auf 100% läuft und du die Kiste deswegen nicht mehr ansprechen kannst.

Ich hab das Problem auf meinem Desktop Rechner. Immer wenn ich den Acrobat Reader auf hatte, muss ich ein killall ld-linux.so machen. Sonst hab ich irgendwann 100% CPU Last und die Kiste reagiert auf nichts mehr. Weder ssh noch ping.

Vielleicht erfährst du daraus was. Wenns ne Kernel Panik wäre müsstets du das ja in der Konsole an dem Server sehen.

Sebastian
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Deutsches Forum (German) All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum