Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
[Carte mère/Disques Durs] Messages zétranges...
View unanswered posts
View posts from last 24 hours

 
Reply to topic    Gentoo Forums Forum Index French
View previous topic :: View next topic  
Author Message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Thu Dec 07, 2006 8:37 pm    Post subject: [Carte mère/Disques Durs] Messages zétranges... Reply with quote

Bonsoir...

Je me suis fait une frayeur sur mon pitit serveur. Pas plus tard que ce début de semaine, voilà qu'il me crashe un paquet de messages, ceux qui font peur car ils présagent généralement un grosse perte de données sous peu. Par claquage de disque dur, oui. Avec en prime plusieurs séquences rapides et successives d'arrêt/redémarage du disque à chaque fois que LVM démarrait ou s'arrêtait.
Sauf que démontage du disque, passage de celui-ci sur mon PC, un coup de smartd pour voir, et rien, niet, il "broute" pas au démarrage. Un second coup de fsck (le premier, je l'ai forcé sur el serveur avant de le démonter, y avait gavé d'erreurs).

Bon, ben je le remets dans le serveur... Pas de problème pendant quelques heure, je décide de faire un emerge -e world pendant que je peux, histoire de reconstruire les bouts d'OS perdus, et de voir s'il tient le coup.
Et oui, il tient.

Sauf que maintenant, à chaque démarrage:
Code:
ata1: PIO error
ata1: status=0x50 { DriveReady SeekComplete }
ata1: PIO error
ata1: status=0x50 { DriveReady SeekComplete }
ata2: PIO error
ata2: status=0x50 { DriveReady SeekComplete }
ata2: PIO error
ata2: status=0x50 { DriveReady SeekComplete }

Uniquement ces lignes, et au même nombre à chaque fois.
Du coup, je me dis que c'est pas mon DD qui a mal, mais que c'est ma carte mère et son contrôleur. A peine plus réjouissant...


Ceci dit, ça fait maintenant 2 jours que le serveur tourne de nouveau non stop, et pas de pépin depuis.
Euh, c'est grave docteur ?
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
ghoti
Advocate
Advocate


Joined: 30 Dec 2002
Posts: 3636
Location: Belgium

PostPosted: Fri Dec 08, 2006 6:24 am    Post subject: Reply with quote

C'est arrivé d'un coup, comme ça ou bien tu avais fait des modifs avant (genre upgrade noyau ...) ?
Back to top
View user's profile Send private message
Oupsman
Veteran
Veteran


Joined: 19 Jul 2004
Posts: 1042

PostPosted: Fri Dec 08, 2006 6:56 am    Post subject: Reply with quote

Ton disque dur n'aurait pas un peu chaud par hasard ? Si tu as les smartools sur ton serveur, regarde un peu la temperature qu'ils renvoient. Un disque dur commence à poser des problèmes dès qu'il atteint 50 degrés. J'avais des soucis comme les tiens à un moment donné sur mon serveur. Et en changeant la position des disques dans le serveur, plus de soucis. Le disque en question n'est PLUS dans mon serveur principal, mais dans mon serveur XEN et il tient la charge sans problème et sans me poser de soucis.

Sinon, je pense à un problème de nappe. Ca veillit mal ces trucs là, je les change tous les deux ans personnellement.

Enfin, ta carte mère qui commence à avoir du plomb dans l'aile. C'est possible aussi, mais je pense que ton disque merderait dès l'allumage du PC
_________________
--
L'idéal de nouveauté semble avoir remplacé l'idéal de progrès. C'est bien triste.

----
Unix philosophy: "Do one thing and do it well."
systemd: "Try to do everything and do it wrong."
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Fri Dec 08, 2006 8:58 am    Post subject: Reply with quote

@ghoti: upgrade noyau, non, mais bon, upgrade par ci par là, comme d'habitude... Peut être udev, je ne sais pas. Enfin rien de cataclysmique comme un changement de noyau ou de gcc... Ouais, c'est un défaut de Gentoo, çà se met à jour trop facilement, aussi... :)

@Oupsman: comme je le disais, au départ çà faisait en effet penser à un problème avec un disque dur. Seulement le message actuel porte sur les 2. Et smartd rapporte une température pour l'un de 30-32°C, l'autre étant positionné en dessous avec le même ventilo en façade de 120mm qui souffle dessus (smartd n'a pas le disque incriminé dans sa base, et sa température rapportée est >120°C... Pas de panique :)).
Pour la "nappe" (SATA) du disque, ok, je la changerai pour voir, mais encore une fois, les messages parlent de ata1 et ata2...
Et pour la carte mère, indeed, c'est ce qui me fait le plus peur. Mais j'aurais espéré des symptômes plus "graves" que ces messages pour bien en être sûr. :?

Ma théorie serait un gros coup de bouse isolé sur les filesystem d'un unique disque, mais ça n'explique toujours pas les messages actuels.

Screugneux. Et je ne vois pas comment tester la santé du matériel pour incriminer un des composants.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
ghoti
Advocate
Advocate


Joined: 30 Dec 2002
Posts: 3636
Location: Belgium

PostPosted: Fri Dec 08, 2006 9:49 am    Post subject: Re: [Carte mère/Disques Durs] Messages zétranges... Reply with quote

El_Goretto wrote:
Sauf que démontage du disque, passage de celui-ci sur mon PC, un coup de smartd pour voir, et rien, niet, il "broute" pas au démarrage.

Tu n'as pas essayé de tester l'inverse (disque PC ==> serveur).
Enfin, oui, bon, c'est peut-être un poil risqué mais avec un bon backup et un tempérament téméraire ...
Back to top
View user's profile Send private message
_droop_
l33t
l33t


Joined: 30 May 2004
Posts: 957

PostPosted: Fri Dec 08, 2006 10:15 am    Post subject: Reply with quote

Salut tu as fait le tour des valeurs SMART, voir si il n'y avait pas de porblème au niveau du disque ?
Back to top
View user's profile Send private message
Oupsman
Veteran
Veteran


Joined: 19 Jul 2004
Posts: 1042

PostPosted: Fri Dec 08, 2006 10:16 am    Post subject: Reply with quote

El_Goretto wrote:
@Oupsman: comme je le disais, au départ çà faisait en effet penser à un problème avec un disque dur. Seulement le message actuel porte sur les 2. Et smartd rapporte une température pour l'un de 30-32°C, l'autre étant positionné en dessous avec le même ventilo en façade de 120mm qui souffle dessus (smartd n'a pas le disque incriminé dans sa base, et sa température rapportée est >120°C... Pas de panique :)).
Pour la "nappe" (SATA) du disque, ok, je la changerai pour voir, mais encore une fois, les messages parlent de ata1 et ata2...
Et pour la carte mère, indeed, c'est ce qui me fait le plus peur. Mais j'aurais espéré des symptômes plus "graves" que ces messages pour bien en être sûr. :?


Marrant ce que tu dis parce que je suis passé par toutes ces étapes aussi avant de virer mon disque du serveur : il foutait la merde sur la nappe IDE parce qu'il avait trop chaud. J'ai même mis en doute ma carte RAID IDE à cause de lui :roll: Bon là si c'est du sata, ca risque pas d'être un problème de nappe si les deux disques sont impactés.

BTW, je suis aussi assez surpris de la température de ton disque 8O Les miens ne descendent pas en dessous de 40°C 8O avec des pointes à 45 pendant les phases intenses (qui font tourner les 3 disques ensemble car j'ai strippé mes LV sur les 3 disques).
_________________
--
L'idéal de nouveauté semble avoir remplacé l'idéal de progrès. C'est bien triste.

----
Unix philosophy: "Do one thing and do it well."
systemd: "Try to do everything and do it wrong."
Back to top
View user's profile Send private message
darkangel92
Apprentice
Apprentice


Joined: 19 Nov 2006
Posts: 202

PostPosted: Fri Dec 08, 2006 10:44 am    Post subject: Reply with quote

il me semble que tu as des utilitaires de diagnostique de DD, mem et CPU sur Ultimate Boot CD que tu peux DL gratos ici par exemple

http://www.clubic.com/telecharger-fiche11951-ultimate-boot-cd.html

PS: C'est un vrai couteau suisse ce CD :wink:
Back to top
View user's profile Send private message
grosnours
Apprentice
Apprentice


Joined: 05 Jun 2006
Posts: 210
Location: Belgium

PostPosted: Fri Dec 08, 2006 10:55 am    Post subject: Reply with quote

Exécute les tests short, offline, long et conveyance sur ton disque via smartctl.
Si aucune erreur n'est retournée, il s'agit sans doute d'un problème au niveau du cable SATA ou du contrôleur.
_________________
grosnours
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Fri Dec 08, 2006 1:14 pm    Post subject: Reply with quote

Code:
beck ~ # hddtemp /dev/sda
/dev/sda: ST3160023AS: 30°C
beck ~ # hddtemp /dev/sdb
ATTENTION : Le lecteur /dev/sdb n'apparait pas dans la base de données des lecteurs supportés
ATTENTION : Mais en utilisant une valeur courante, il renvoie quelque chose.
ATTENTION : Notez que la température renvoyée peut être erronée.
ATTENTION : Voir les options --help, --debug et --drivebase.
ATTENTION : Et n'oubliez pas d'ajouter votre lecteur au fichier hddtemp.db
/dev/sdb: WDC WD3200KS-00PFB0 :  32°C ou °F

Laaa, je mens pas, voyez :)
Donc je précise que c'est le sdb qui avait eu les pépins, et qu'il n'est pas reconnu par hddtemp ou smartd. Donc obtenir des valeurs smart n'est pas évident. Je re-regarderai, mais je n'avais rien obtenu la dernière fois.
[edit: la température dasn les logs de smartd, c'est elle qui est farfelue]

@ghoti: oui, plutôt warrior la manip' ;). Dommage, je n'ai pas d'autres disques SATA sous la main (ouf...).
@grosnours: j'ai déjà lancé des tests short, mais ça passe en arrière plan, et je ne vois rien... Nörf, je dois oublier un truc. Ok, je retenterai.

--
edit:
les dernières valeurs crachées en auto par smartd (qui ne reconnait pas sdb correctement, je le rappelle):
Code:
Dec  8 12:36:08 beck smartd[6226]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 65 to 64
Dec  8 12:36:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 65 to 64
Dec  8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 64 to 65
Dec  8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 31 to 30
Dec  8 13:06:08 beck smartd[6226]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 64 to 65
Dec  8 14:06:09 beck smartd[6226]: Device: /dev/sdb, SMART Usage Attribute: 194 Temperature_Celsius changed from 117 to 118

_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Sat Dec 09, 2006 12:15 pm    Post subject: Reply with quote

Bon, j'ai retrouvé comment lire les résultats des tests SMART:

Code:
smartctl -a /dev/sdb -d ata
[...]
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
[...]
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 111) minutes.
Conveyance self-test routine
recommended polling time:        (   6) minutes.
[...]
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      1181         -
# 2  Short offline       Completed without error       00%      1180         -
# 3  Short offline       Completed without error       00%      1140         -
# 4  Short offline       Completed without error       00%      1116         -
# 5  Short offline       Completed without error       00%      1098         -
[...]


Pour sda, même chose, c'est OK.

Vous savez à quoi correspondent les valeurs de "polling" recommandées? Je veux dire, c'est une donnée constructeur pour pouvoir paramétrer les intervalles entre les tests SMART dans le smartd.conf?
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
grosnours
Apprentice
Apprentice


Joined: 05 Jun 2006
Posts: 210
Location: Belgium

PostPosted: Sat Dec 09, 2006 5:16 pm    Post subject: Reply with quote

Si tu continues à avoir des erreurs kernel à propos des disques et que les selftests des disques ne reportent pas d'erreur, je penche pour un problème de contrôleur.
Le "polling time" est la durée approximative que prend le test correspondant. Probablement un peu foireux, chez moi le test long devrait prendre 152minutes et il n'en prend "que" ~100.
_________________
grosnours
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Sat Dec 09, 2006 6:27 pm    Post subject: Reply with quote

Bon, ben merci pour l'info du polling time.
Mettons que c'est le contrôleur, mais je ne comprends pas trop l'impact de ces messages (erreur critique? warning?).
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Thu Mar 08, 2007 8:48 pm    Post subject: Reply with quote

Un petit up pour signaler que ces messages au boot n'ont pas disparu après un uprade en 2.6.18, loin de là... C'est plus verbeux, mais pas plus clair. Jugez plutôt:

Code:
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata1.00: tag 0 cmd 0xb0 Emask 0x2 stat 0x50 err 0x0 (HSM violation)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
ata1: soft resetting port
ata1.00: configured for UDMA/133
ata1: EH complete
[...]
SCSI device sda: 312581808 512-byte hdwr sectors (160042 MB)
sda: Write Protect is off
sda: Mode Sense: 00 3a 00 00
SCSI device sda: drive cache: write back
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen
ata1.00: tag 0 cmd 0xb0 Emask 0x2 stat 0x50 err 0x0 (HSM violation)
ata1: SATA link up 1.5 Gbps (SStatus 113 SControl 300)
ata1: soft resetting port
ata1.00: configured for UDMA/133
ata1: EH complete
[...]


Même chose pour ata2 et l'autre disque SATA.

NB: au boot plus aucun problème électrique à déplorer depuis. Depuis que j'ai pris une autre prise molex pour alimenter les 2 DD SATA, surtout.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index French All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum