View previous topic :: View next topic |
Author |
Message |
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Fri Feb 27, 2009 10:34 am Post subject: Brauche Hilfe bei der Diagnose von Systemabstürzen |
|
|
Hallo,
ich habe hier ein extrem großes Sorgenkind als einen Server beim Kunden stehen. Ich stehe da vor einem großen Rätsel und weiss z.Zt. nicht wie ich anfangen kann das Problem einzugrenzen.
Folgender IST-Zustand:
Das Teil ist ein Fujitsu Siemens PRIMERGY TX300 S4 mit XEON QuadCore und aktivem Raid-Controller (RAID1)
Als Basis läuft da ein Gentoo Linux 2.6.27-xen-r2 mit einem XEN Hypervisor. Als Gäste kommen zwei Windows 2003 Server, ein Linux Mailserver und eine Windows XP Professional Arbeitsstaion. Festplattenmanagement wird über lvm gelöst.
Jetzt das Problem:
Sporadisch (ein mal im Monat oder auch öfter) schmiert die Kiste ab - und zwar komplett! Der Bildschirm ist schwarz. er reagiert auf null und mir bleibt nichts weiter übrig als die Kiste neu zu starten. Extrem ärgerlich, da in der Zwischenzeit die komplette EDV tot ist.
Meine Frage ist nun wie ich den Fehler in so einem Fall finden kann. Ich bekomme ja kein Kernel-Panic oder irgendwas anderes in die Hand womit ich was anfangen könnt. Das Ding ist irgendwann einfach dunkel und das wars.
Ich bin hier echt für JEDE Hilfe oder Gedankenanstoß dankbar. Ich vermute ja eher einen Hardwaredefekt - aber wissen tu ich es nicht
Gruß,
Martin |
|
Back to top |
|
|
Max Steel Advocate
Joined: 12 Feb 2007 Posts: 2270 Location: My own world! I and Gentoo!
|
Posted: Fri Feb 27, 2009 11:24 am Post subject: |
|
|
Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<
In der Zwischenzeit solltest du für ein ServiceModell sorgen.
Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten.
Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.
Und ob es damit irgendwie reproduzierbar wird. _________________ mfg
Steel
___________________
Heim-PC: AMD Ryzen 5950X, 64GB RAM, GTX 1080
Laptop: Intel Core i5-4300U, 16GB RAM, Intel Graphic
Arbeit-PC: Intel i5-1145G7, 16GB RAM, Intel Iris Xe Graphic (leider WSL2) |
|
Back to top |
|
|
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Fri Feb 27, 2009 11:44 am Post subject: |
|
|
Max Steel wrote: | Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.<
In der Zwischenzeit solltest du für ein ServiceModell sorgen. |
Nein, leider nicht. Der Server ist der Kern der ganzen EDV-Anlage dort. Okay, das Einzige was ich machen könnte wäre den Server am Freitag Abend mit nach Hause nehmen und ihn am Montag früh wieder hin zu stellen. Das ginge schon. Alles andere wäre nicht drin. Ohne das Ding geht da quasi gar nichts
Quote: | Jedenfalls hätte ich als Vorschlag erstmal memtest sowie cpuburn um evtl. Hardwaredefekte auszuräumen, bzw. die Möglichkeit kleiner zu halten. |
Okay, das wäre zumindest mal ein Test für die CPU und den Speicher. Wie bekomme ich andere Komponenten des Systems getestet? Vor allem den Festplattencontroller?
Quote: | Dann durchforste mal alle logfiles, vorallem /var/log/messages um zu sehen was als letztes kommt, evtl sieht man da doch noch etwas.
Und ob es damit irgendwie reproduzierbar wird. |
Das ist genau das Problem - /var/log/messages schweigt über das Problem ganz solide hinweg:
Quote: | Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly)
Feb 27 11:17:45 server syslog-ng[4125]: syslog-ng starting up; version='2.0.9' |
um 11:00:01 macht er noch die cron.hourly und anschließend ist er weggeklatscht. Der nächste Eintrag ist schon der Anfang vom Reboot. Und /etc/cron.hourly ist leer.
Kann man in den Kernel noch irgendwelche Optionen hinzu "buchen", die einen Loggen von sich ankündigenden Fehlern wahrscheinlicher macht? |
|
Back to top |
|
|
flammenflitzer Advocate
Joined: 25 Nov 2003 Posts: 3536 Location: Berlin
|
Posted: Fri Feb 27, 2009 2:09 pm Post subject: |
|
|
Ich hatte ein ähnliches Problem mit meinem Rechner. Wurde mitunter zu warm. Habe den Gehäusedeckel entfernt, dann lief die Kiste. |
|
Back to top |
|
|
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Fri Feb 27, 2009 3:02 pm Post subject: |
|
|
versuche mich gerade an den hwmon-Sache aus dem Kernel. Der Server hier sollte eigentlich kein thermisches Problem haben. Bei all den Lüftern die der da hat... |
|
Back to top |
|
|
Hollowman Guru
Joined: 19 Apr 2007 Posts: 584
|
Posted: Fri Feb 27, 2009 3:32 pm Post subject: |
|
|
Hi
Wenn der nen thermisches Problem hätte, würde er ganz aus gehen und nicht weiterlaufen.
Ist das immer die selbe Zeit an der die Kiste ab schmiert? Schmiert er auch wenn keine Gäste laufen?
Kommst du beim Absturz auf kein System mehr oder sind nur die Gäste tot?
Quote: | Erstmal Frage, kannst du den Rechnerfür Service-Arbeiten (=Rechner stürzt danach nicht mehr ab) mit nach Hause nehmen?
Denn in der Firma verschiedene Arbeiten zu machen ist doch etwas, naja >.< |
Das muss ich aber nicht verstehen? Was für Arbeiten kann er denn in der Firma nicht machen?
Ich würde erst ma ein bisschen mit den Gästen spielen. Also am besten alle ma einzeln testen. Jeweils mit dem Gast richtig Last produzieren.
Quote: | Vor allem den Festplattencontroller? |
Kopier ma von einem Gast zu nem anderen viele kleine Dateien. Irgendwelche Home Dirs oder sowas.
Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen
Sebastian |
|
Back to top |
|
|
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Fri Feb 27, 2009 4:04 pm Post subject: |
|
|
Die Zeit der Abstürze ist leider komplett unterschiedlich. Mal nachts, mal tagsüber, mal früh morgens und mal am nachmittag.
Ich kann allerdings nicht sagen ob er auch abschmieren würde wenn keine Gäste laufen. Dieses Problem tauchte jedenfalls das erste mal im Echtbetrieb auf und seit jeher müssen da auch die Gäste laufen. Kann den Server also nicht mal ne Woche oder nen Monat ohne Gast laufen lassen. Die Abstände zwischen den Abstürzen sind ja leider auch relativ lang (zwischen einer guten Woche und einem Monat)
Wenn das Teil abschmiert ist jedenfalls der ganze Server unansprechbar. weder dom0 noch die domUs sind ansprechbar. Ping geht nicht mehr und lokal an der Konsole anmelden geht ebenfalls nicht (schwarzer Bildschirm. Lässt sich mit keinerlei Tastendruck reaktivieren - also auch kein Bildschirmschoner). Der ganze Server kommt mir dann so vor, als würde er zwar angeschaltet sein, aber auf absolut null Input reagieren.
Das mit der Last von Gast zu Gast kann ich ja mal versuchen. Genauso wie ich das mit dem cpuburn und memtest mal ausprobieren werde |
|
Back to top |
|
|
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Fri Feb 27, 2009 4:06 pm Post subject: |
|
|
Hollowman wrote: | Guck dir ma die anderen Logfiles an, die noch in /var/log/ liegen |
Da liegen sonst keine brauchbaren Logs mehr herum. /var/log/messages ist eh das Sammalfass für alles was dem syslog über den Weg läuft. |
|
Back to top |
|
|
Anarcho Advocate
Joined: 06 Jun 2004 Posts: 2970 Location: Germany
|
Posted: Fri Feb 27, 2009 7:02 pm Post subject: |
|
|
Du könntest dir dieses hier mal ansehen:
http://lkcd.sourceforge.net/
Ich selber habe auch so ein Teil. Läuft seit 3 Jahren und schmiert alle 2 - 3 Monate mal ab. Damit ich damit nicht soviel Ärger habe, habe ich folgendes gemacht:
In die Datei /etc/sysctl.conf:
Dadurch startet der Rechner nach einem Kernel-Panic nach 2 Sekunden neu. Du musst den Rechner einmal neubooten damit das aktiv ist oder per sysctl manuell setzen.
Wie gesagt, ist keine Lösung, mildert das Problem aber eventuell etwas ab. Ich lasse mir bei jedem Booten ne Email schicken damit ich den Restart mitbekomme.... Bin einfach zu faul dort nach ner Lösung zu suchen da ich den Server eigentlich schon vor 2 Jahren austauschen wollte. _________________ ...it's only Rock'n'Roll, but I like it! |
|
Back to top |
|
|
BlackEye l33t
Joined: 04 Dec 2002 Posts: 756 Location: Germany
|
Posted: Sat Feb 28, 2009 6:13 pm Post subject: |
|
|
Das mit dem lkcd klingt interessant. Ich denke das werde ich mal aktivieren. Wenn es ein vom Kernel oder System verursachter Absturz sein sollte, dann hoffe ich damit die Sache etwas zu lichten. Ist es ein HW Problem wird es mir vermutlich gar nichts bringen. Aber dann wird die Sache vielleicht klarer und weist eher auf ein HW-Defekt hin. Mal sehen.
Danke erstmal für die Tipps! |
|
Back to top |
|
|
Mr. Anderson l33t
Joined: 22 Apr 2004 Posts: 762
|
Posted: Sat Feb 28, 2009 6:38 pm Post subject: |
|
|
Ist denn jedes Mal das Letzte, was noch zu sehen ist
Code: | Feb 27 11:00:01 server cron[29536]: (root) CMD (rm -f /var/spool/cron/lastrun/cron.hourly) |
oder ist das unterschiedlich?
Bin kein Kernel-Hacker, mir sind vorhin aber in der Config ein paar Dinge aufgefallen, die vllt. nützlich sind, zumindest sofern es ein Kernel-Problem ist. Schlägt wohl in dieselbe Kerbe wie LKCD:
CONFIG_MAGIC_SYSRQ
CONFIG_DEBUG_KERNEL
->CONFIG_DETECT_SOFTLOCKUP
->CONFIG_BOOTPARAM_SOFTLOCKUP_PANIC
CONFIG_WATCHDOG |
|
Back to top |
|
|
Hollowman Guru
Joined: 19 Apr 2007 Posts: 584
|
Posted: Sat Feb 28, 2009 6:49 pm Post subject: |
|
|
Hi
Was mir spontan noch einfällt. Du könntest mit cron alle paar Minuten ps in ne Datei schreiben lassen. Dann erkennst du ob vielleicht ein Prozess auf 100% läuft und du die Kiste deswegen nicht mehr ansprechen kannst.
Ich hab das Problem auf meinem Desktop Rechner. Immer wenn ich den Acrobat Reader auf hatte, muss ich ein killall ld-linux.so machen. Sonst hab ich irgendwann 100% CPU Last und die Kiste reagiert auf nichts mehr. Weder ssh noch ping.
Vielleicht erfährst du daraus was. Wenns ne Kernel Panik wäre müsstets du das ja in der Konsole an dem Server sehen.
Sebastian |
|
Back to top |
|
|
|