View previous topic :: View next topic |
Author |
Message |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Thu Dec 07, 2006 8:37 pm Post subject: [Carte mère/Disques Durs] Messages zétranges... |
|
|
Bonsoir...
Je me suis fait une frayeur sur mon pitit serveur. Pas plus tard que ce début de semaine, voilà qu'il me crashe un paquet de messages, ceux qui font peur car ils présagent généralement un grosse perte de données sous peu. Par claquage de disque dur, oui. Avec en prime plusieurs séquences rapides et successives d'arrêt/redémarage du disque à chaque fois que LVM démarrait ou s'arrêtait.
Sauf que démontage du disque, passage de celui-ci sur mon PC, un coup de smartd pour voir, et rien, niet, il "broute" pas au démarrage. Un second coup de fsck (le premier, je l'ai forcé sur el serveur avant de le démonter, y avait gavé d'erreurs).
Bon, ben je le remets dans le serveur... Pas de problème pendant quelques heure, je décide de faire un emerge -e world pendant que je peux, histoire de reconstruire les bouts d'OS perdus, et de voir s'il tient le coup.
Et oui, il tient.
Sauf que maintenant, à chaque démarrage:
Code: | ata1: PIO error
ata1: status=0x50 { DriveReady SeekComplete }
ata1: PIO error
ata1: status=0x50 { DriveReady SeekComplete }
ata2: PIO error
ata2: status=0x50 { DriveReady SeekComplete }
ata2: PIO error
ata2: status=0x50 { DriveReady SeekComplete } |
Uniquement ces lignes, et au même nombre à chaque fois.
Du coup, je me dis que c'est pas mon DD qui a mal, mais que c'est ma carte mère et son contrôleur. A peine plus réjouissant...
Ceci dit, ça fait maintenant 2 jours que le serveur tourne de nouveau non stop, et pas de pépin depuis.
Euh, c'est grave docteur ? _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
ghoti Advocate
![Advocate Advocate](/images/ranks/rank-G-1-advocate.gif)
![](images/avatars/15463172846237c094abba7.jpg)
Joined: 30 Dec 2002 Posts: 3636 Location: Belgium
|
Posted: Fri Dec 08, 2006 6:24 am Post subject: |
|
|
C'est arrivé d'un coup, comme ça ou bien tu avais fait des modifs avant (genre upgrade noyau ...) ? |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
Oupsman Veteran
![Veteran Veteran](/images/ranks/rank_rect_5_vet.gif)
Joined: 19 Jul 2004 Posts: 1042
|
Posted: Fri Dec 08, 2006 6:56 am Post subject: |
|
|
Ton disque dur n'aurait pas un peu chaud par hasard ? Si tu as les smartools sur ton serveur, regarde un peu la temperature qu'ils renvoient. Un disque dur commence à poser des problèmes dès qu'il atteint 50 degrés. J'avais des soucis comme les tiens à un moment donné sur mon serveur. Et en changeant la position des disques dans le serveur, plus de soucis. Le disque en question n'est PLUS dans mon serveur principal, mais dans mon serveur XEN et il tient la charge sans problème et sans me poser de soucis.
Sinon, je pense à un problème de nappe. Ca veillit mal ces trucs là, je les change tous les deux ans personnellement.
Enfin, ta carte mère qui commence à avoir du plomb dans l'aile. C'est possible aussi, mais je pense que ton disque merderait dès l'allumage du PC _________________ --
L'idéal de nouveauté semble avoir remplacé l'idéal de progrès. C'est bien triste.
----
Unix philosophy: "Do one thing and do it well."
systemd: "Try to do everything and do it wrong." |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Fri Dec 08, 2006 8:58 am Post subject: |
|
|
@ghoti: upgrade noyau, non, mais bon, upgrade par ci par là, comme d'habitude... Peut être udev, je ne sais pas. Enfin rien de cataclysmique comme un changement de noyau ou de gcc... Ouais, c'est un défaut de Gentoo, çà se met à jour trop facilement, aussi...
@Oupsman: comme je le disais, au départ çà faisait en effet penser à un problème avec un disque dur. Seulement le message actuel porte sur les 2. Et smartd rapporte une température pour l'un de 30-32°C, l'autre étant positionné en dessous avec le même ventilo en façade de 120mm qui souffle dessus (smartd n'a pas le disque incriminé dans sa base, et sa température rapportée est >120°C... Pas de panique ).
Pour la "nappe" (SATA) du disque, ok, je la changerai pour voir, mais encore une fois, les messages parlent de ata1 et ata2...
Et pour la carte mère, indeed, c'est ce qui me fait le plus peur. Mais j'aurais espéré des symptômes plus "graves" que ces messages pour bien en être sûr.
Ma théorie serait un gros coup de bouse isolé sur les filesystem d'un unique disque, mais ça n'explique toujours pas les messages actuels.
Screugneux. Et je ne vois pas comment tester la santé du matériel pour incriminer un des composants. _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
ghoti Advocate
![Advocate Advocate](/images/ranks/rank-G-1-advocate.gif)
![](images/avatars/15463172846237c094abba7.jpg)
Joined: 30 Dec 2002 Posts: 3636 Location: Belgium
|
Posted: Fri Dec 08, 2006 9:49 am Post subject: Re: [Carte mère/Disques Durs] Messages zétranges... |
|
|
El_Goretto wrote: | Sauf que démontage du disque, passage de celui-ci sur mon PC, un coup de smartd pour voir, et rien, niet, il "broute" pas au démarrage. |
Tu n'as pas essayé de tester l'inverse (disque PC ==> serveur).
Enfin, oui, bon, c'est peut-être un poil risqué mais avec un bon backup et un tempérament téméraire ... |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
_droop_ l33t
![l33t l33t](/images/ranks/rank_rect_4.gif)
Joined: 30 May 2004 Posts: 957
|
Posted: Fri Dec 08, 2006 10:15 am Post subject: |
|
|
Salut tu as fait le tour des valeurs SMART, voir si il n'y avait pas de porblème au niveau du disque ? |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
Oupsman Veteran
![Veteran Veteran](/images/ranks/rank_rect_5_vet.gif)
Joined: 19 Jul 2004 Posts: 1042
|
Posted: Fri Dec 08, 2006 10:16 am Post subject: |
|
|
El_Goretto wrote: | @Oupsman: comme je le disais, au départ çà faisait en effet penser à un problème avec un disque dur. Seulement le message actuel porte sur les 2. Et smartd rapporte une température pour l'un de 30-32°C, l'autre étant positionné en dessous avec le même ventilo en façade de 120mm qui souffle dessus (smartd n'a pas le disque incriminé dans sa base, et sa température rapportée est >120°C... Pas de panique ).
Pour la "nappe" (SATA) du disque, ok, je la changerai pour voir, mais encore une fois, les messages parlent de ata1 et ata2...
Et pour la carte mère, indeed, c'est ce qui me fait le plus peur. Mais j'aurais espéré des symptômes plus "graves" que ces messages pour bien en être sûr.
|
Marrant ce que tu dis parce que je suis passé par toutes ces étapes aussi avant de virer mon disque du serveur : il foutait la merde sur la nappe IDE parce qu'il avait trop chaud. J'ai même mis en doute ma carte RAID IDE à cause de lui Bon là si c'est du sata, ca risque pas d'être un problème de nappe si les deux disques sont impactés.
BTW, je suis aussi assez surpris de la température de ton disque Les miens ne descendent pas en dessous de 40°C avec des pointes à 45 pendant les phases intenses (qui font tourner les 3 disques ensemble car j'ai strippé mes LV sur les 3 disques). _________________ --
L'idéal de nouveauté semble avoir remplacé l'idéal de progrès. C'est bien triste.
----
Unix philosophy: "Do one thing and do it well."
systemd: "Try to do everything and do it wrong." |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
darkangel92 Apprentice
![Apprentice Apprentice](/images/ranks/rank_rect_2.gif)
![](images/avatars/610507505476bc6445bf86.jpg)
Joined: 19 Nov 2006 Posts: 202
|
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
grosnours Apprentice
![Apprentice Apprentice](/images/ranks/rank_rect_2.gif)
Joined: 05 Jun 2006 Posts: 210 Location: Belgium
|
Posted: Fri Dec 08, 2006 10:55 am Post subject: |
|
|
Exécute les tests short, offline, long et conveyance sur ton disque via smartctl.
Si aucune erreur n'est retournée, il s'agit sans doute d'un problème au niveau du cable SATA ou du contrôleur. _________________ grosnours |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Fri Dec 08, 2006 1:14 pm Post subject: |
|
|
Code: | beck ~ # hddtemp /dev/sda
/dev/sda: ST3160023AS: 30°C
beck ~ # hddtemp /dev/sdb
ATTENTION : Le lecteur /dev/sdb n'apparait pas dans la base de données des lecteurs supportés
ATTENTION : Mais en utilisant une valeur courante, il renvoie quelque chose.
ATTENTION : Notez que la température renvoyée peut être erronée.
ATTENTION : Voir les options --help, --debug et --drivebase.
ATTENTION : Et n'oubliez pas d'ajouter votre lecteur au fichier hddtemp.db
/dev/sdb: WDC WD3200KS-00PFB0 : 32°C ou °F |
Laaa, je mens pas, voyez
Donc je précise que c'est le sdb qui avait eu les pépins, et qu'il n'est pas reconnu par hddtemp ou smartd. Donc obtenir des valeurs smart n'est pas évident. Je re-regarderai, mais je n'avais rien obtenu la dernière fois.
[edit: la température dasn les logs de smartd, c'est elle qui est farfelue]
@ghoti: oui, plutôt warrior la manip' . Dommage, je n'ai pas d'autres disques SATA sous la main (ouf...).
@grosnours: j'ai déjà lancé des tests short, mais ça passe en arrière plan, et je ne vois rien... Nörf, je dois oublier un truc. Ok, je retenterai.
--
edit:
les dernières valeurs crachées en auto par smartd (qui ne reconnait pas sdb correctement, je le rappelle):
Code: | Dec 8 12:36:08 beck smartd[6226]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 65 to 64
Dec 8 12:36:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 65 to 64
Dec 8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 64 to 65
Dec 8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 31 to 30
Dec 8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 64 to 65
Dec 8 14:06:09 beck smartd[6226]: Device: /dev/sdb, SMART Usage Attribute: 194 Temperature_Celsius changed from 117 to 118 |
_________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Sat Dec 09, 2006 12:15 pm Post subject: |
|
|
Bon, j'ai retrouvé comment lire les résultats des tests SMART:
Code: | smartctl -a /dev/sdb -d ata
[...]
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
[...]
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 111) minutes.
Conveyance self-test routine
recommended polling time: ( 6) minutes.
[...]
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 1181 -
# 2 Short offline Completed without error 00% 1180 -
# 3 Short offline Completed without error 00% 1140 -
# 4 Short offline Completed without error 00% 1116 -
# 5 Short offline Completed without error 00% 1098 -
[...]
|
Pour sda, même chose, c'est OK.
Vous savez à quoi correspondent les valeurs de "polling" recommandées? Je veux dire, c'est une donnée constructeur pour pouvoir paramétrer les intervalles entre les tests SMART dans le smartd.conf? _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
grosnours Apprentice
![Apprentice Apprentice](/images/ranks/rank_rect_2.gif)
Joined: 05 Jun 2006 Posts: 210 Location: Belgium
|
Posted: Sat Dec 09, 2006 5:16 pm Post subject: |
|
|
Si tu continues à avoir des erreurs kernel à propos des disques et que les selftests des disques ne reportent pas d'erreur, je penche pour un problème de contrôleur.
Le "polling time" est la durée approximative que prend le test correspondant. Probablement un peu foireux, chez moi le test long devrait prendre 152minutes et il n'en prend "que" ~100. _________________ grosnours |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Sat Dec 09, 2006 6:27 pm Post subject: |
|
|
Bon, ben merci pour l'info du polling time.
Mettons que c'est le contrôleur, mais je ne comprends pas trop l'impact de ces messages (erreur critique? warning?). _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
El_Goretto Moderator
![Moderator Moderator](/images/ranks/rank-mod.gif)
![](images/avatars/74235356747da926429d8b.jpg)
Joined: 29 May 2004 Posts: 3174 Location: Paris
|
Posted: Thu Mar 08, 2007 8:48 pm Post subject: |
|
|
Un petit up pour signaler que ces messages au boot n'ont pas disparu après un uprade en 2.6.18, loin de là... C'est plus verbeux, mais pas plus clair. Jugez plutôt:
Code: | ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata1.00: tag 0 cmd 0xb0 Emask 0x2 stat 0x50 err 0x0 (HSM violation)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
ata1: soft resetting port
ata1.00: configured for UDMA/133
ata1: EH complete
[...]
SCSI device sda: 312581808 512-byte hdwr sectors (160042 MB)
sda: Write Protect is off
sda: Mode Sense: 00 3a 00 00
SCSI device sda: drive cache: write back
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata1.00: tag 0 cmd 0xb0 Emask 0x2 stat 0x50 err 0x0 (HSM violation)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
ata1: soft resetting port
ata1.00: configured for UDMA/133
ata1: EH complete
[...]
|
Même chose pour ata2 et l'autre disque SATA.
NB: au boot plus aucun problème électrique à déplorer depuis. Depuis que j'ai pris une autre prise molex pour alimenter les 2 DD SATA, surtout. _________________ -TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT) |
|
Back to top |
|
![](templates/gentoo/images/spacer.gif) |
|
|
You cannot post new topics in this forum You cannot reply to topics in this forum You cannot edit your posts in this forum You cannot delete your posts in this forum You cannot vote in polls in this forum
|
|