Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
[Marvell Yukon: skge/sk98lin] Crashs machine (abandon)
View unanswered posts
View posts from last 24 hours

 
Reply to topic    Gentoo Forums Forum Index French
View previous topic :: View next topic  
Author Message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Sat Nov 26, 2005 8:18 pm    Post subject: [Marvell Yukon: skge/sk98lin] Crashs machine (abandon) Reply with quote

[edit: voir 3e message pour schéma réseau]

Bonsoir,

Oui, ça sent jamais bon, ce genre de problème.
J'ai 2 hypothèses:

  • je me suis fait rooter: bon, je ne pense pas que ca soit çà, j'ai fait du hardening de base (d'ailleurs c'est une gentoo hardened, et à part apache2 sans aucun mod, tout ce qui donne sur le net est sécurisé (ssh par clé uniquement avec fail2ban). Et je n'ai vraiment rien dans les logs (que j'ai consulté plus tôt dans la journée). Une seule personne a un shell par ssh, et il n'a pas les droits root, donc ca ne devrait pas venir de l'extérieur.
  • mon matos déconne: peut etre plus probable, mais je ne vois pas trop d'où. Les températures sont bonnes (52 pour le CPU, 40 pour le chipset), la carte mère a 3 mois (Asus base VIA), et à part le CPU (Athlon 900 récupéré) le reste vient de mon PC perso qui a déjà été rodé.

Ca fait la 2e fois que ça m'arrive, la première c'était il y a 15 jours.
Je ne sais plus trop où regarder pour savoir d'où ça peut venir, voici les logs que j'ai:
Code:
# l
amuled.log      dispatch-conf.log      lastlog         sandbox            uucp.log.1.gz
amuleweb.log    dispatch-conf.log.old  mail.err        snort              vsftpd
apache2         dmesg                  mail.log        syslog             vsftpd.log
auth.log        emerge.log             messages        syslog.1           wtmp
auth.log.1      emerge.log.1           messages.1      syslog.2           wtmp.1
chkrootkit.log  emerge.log.2           messages.1.gz   teamspeak2-server  wtmp.1.gz
cron.log        emerge.log.3           messages.2      user.log           Xorg.0.log
cron.log.1      fail2ban.log           news            user.log.1.gz      Xorg.0.log.old
daemon.log      kern.log               partimage       user.log.2.gz
daemon.log.1    kern.log.1             partimaged.log  user.log.3.gz
daemon.log.2    kern.log.2             pax.log         user.log.4.gz
daemon.log.3    kern.log.3             rkhunter.log    uucp.log


Si vous aviez une idée d'où regarder... Je trouve çà bien mystérieux.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)


Last edited by El_Goretto on Wed Dec 07, 2005 4:04 pm; edited 5 times in total
Back to top
View user's profile Send private message
ERICB
Tux's lil' helper
Tux's lil' helper


Joined: 13 Sep 2002
Posts: 85
Location: Sherbrooke, Québec

PostPosted: Sat Nov 26, 2005 10:10 pm    Post subject: Reply with quote

J'ai exactement le même problème. Moi j'ai eu mon premier reboot ce matin. J'ai fait un emerge system hier soir ...
Back to top
View user's profile Send private message
loopx
Advocate
Advocate


Joined: 01 Apr 2005
Posts: 2787
Location: Belgium / Liège

PostPosted: Sat Nov 26, 2005 10:31 pm    Post subject: Reply with quote

Moi aussi j'ai ce problème. J'ai réinstaller ma gentoo (car le disque dur étais naze), et j'ai du preter ma bonne alimentation (j'ai fais un échange en fait). Il redémarre tout seul 1x par jour :|

Mais je pense que c'est l'alimentation qui est merdique. En plus, ce pc est un champions dans le reboot mais j'avais plus eu ca depuis que j'avais changé le ventilo du proco.

J'espère que ca ne rebootera plus quand j'aurais récuperer mon alim...
_________________
Mon MediaWiki perso : http://pix-mania.dyndns.org
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Sun Nov 27, 2005 4:14 pm    Post subject: Reply with quote

Bon, merci pour votre partage d'expérience, je vais regarder du côté électrique, mais plus l'onduleur que l'alim qui a prouvé qu'elle était valable: une 300W Seasonic venant de mon PC, largement plus gourmand que le serveur (un 900/256Mo, une Matrox millenium PCI de 1996 et 2 DD, contre un 2600/768Mo avec 9800 pro, 3 DD et 2 graveurs...).

Je viens de me rappeler que ya quelques temps, ya eu une coupure de courant et que l'onduleur a peut être pris un coup dans le pif.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Tue Nov 29, 2005 5:18 pm    Post subject: Reply with quote

Euh, aie, c'est de pire en pire.
Je vous plante le cadre:
Code:

(NET)---[Serveur]--1Gb--[PC]
            |            |


Mon serveur, 3 interface Net: 1 Gb pour le lan (Marvell Yukon), un Realtek 100Mb (pour le Net), et un autre pour la DMZ (ne sert pas).
Mon PC: 1Gb (Marvell Yukon) pour le lien vers le serveur, et un 100 Mb nforce2.

Et le problème qui vient de se déclarer aujourd hui: à chaque boot sous linux du PC, le serveur stoppe, ou reboote... Et là je ne comprend plus: le PC boote sous XP sans soucis pour le serveur, et le moment où le serveur redémarre est: entre le moment où l'interfacec réseau 1Gb du PC est up, et le lancement des montages NFS.

Quelques observations:
-le serveur est stable et tourne sans soucis sans le PC allumé (compilation de noyau, surf, etc).
-si je change le branchement côté PC et utilise l'interface nforce2 à la place du 1Gb, tout fonctionne normalement (avec des débits moindres, fatalement, ce qui est pénible pour NFS).
-je suis repassé sur les 2 machines des drivers skge "expérimentaux" (que j'avais depuis le début) aux sk98lin, mais çà ne change rien.

J'ai 2 pistes:
-soit le problème matériel: euh, mais sur quelle machine? Quel composant? Comment c'est possible de faire planter une machine à distance?? (je veux dire, sans le vouloir avec un exploit, oeuf corse).
-un problème avec NFS côté serveur. Je vais faire un tour d'emerge et revdep-rebuild. Et surtout je vais désactiver NFS en remettant l'interface Gb du PC pour tester.


Euh, des idées? J'ai plutôt chaud là... :?
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
oxomichael
Tux's lil' helper
Tux's lil' helper


Joined: 05 Aug 2005
Posts: 87
Location: Loin de chez moi

PostPosted: Tue Nov 29, 2005 5:43 pm    Post subject: Reply with quote

Salut,
j'ai eu un problème "similaire" sur un de mes serveurs de tests qui est sous Windows 2000.
Alors si tu est sur que c matériel.

J'explique le probleme :
En fait, il rebooter de temps en temps quand il le voulait.
J'ai remarquer que quand il y avait un accès disque ça le faisait et après ça c mis à le faire de pus en plus souvent, genre simplement en branchant le c able réseau, il rebooter 5 fois de suite.
Et comme ce "serveur", en fait un pc, avec une carte mère à 35 euros avait tourner pendant plus d'un an et 1/2, 24h/24 7j/7 et bah je me suis dit j'ai un probleme d'alim. Mais finalement c'était les tensions sur la carte mère qui n'étaient plus stable, il y avait 7 condensateurs explosés sur la carte mère.

Donc qu'a tu fait sous XP simplement booter? Essaie de faire travailler le disque, etc
Il faut que tu sache d'ou cela vient Materiel ou Logiciel.

Mais regarde si y a pas un condensateur qui a pas l'air d'être différent des autres

PS: depuis j'ai ressouder des condensateurs et ça marche du feu de dieu
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Tue Nov 29, 2005 6:15 pm    Post subject: Reply with quote

Ok, je regarderai de plus près la carte mère du serveur.
Pour le PC, il n'y a vraiment pas de symptôme qui laisserait penser que lui a un problème (folding@home en permanence sous linux, et sous XP... des jeux 3D).

J'ai remis le cablage comme au départ, remis la MTU à 9000 comme au départ (des 2 côtés), et j'ai viré iptables et nfsmount du démarrage du PC (mais le montage nfs se fait quand même, par netmount j'imagine).

A l'exception des drivers stables sk98lin, voilà la configuration actuelle, mais je n'arrive plus à reproduire le problème.
Je mettrai ce thread à jour si ya du nouveau.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Sun Dec 04, 2005 12:10 am    Post subject: Reply with quote

Bon, j'ai au moins fait le tour du problème, et j'en suis arrivé à la conclusion: c'est un problème de drivers. J'ai vu des posts et mail référençant le fait que les derniers frivers skge foutaient la zone, en rendant impossible d'utiliser des drivers plus anciens (même un vieux skge) par la suite (ce "seraient" ces derniers qui seraient buggés, même les drivers windows).
Pour rappel, normalement pour mes cartes Marvell Yukon 88E8001, j'ai le choix entre skge (nouveau, mieux parait, mais expérimental) et sk98lin (plus ou moins officiel, provient de syskonnect je crois).
Toujours est-il que je n'ai pas de solution à mon problème, que sur le serveur, skge ne fonctionne même plus (sur 2.6.14 hardened, l'interface ne monte jamais, et skge arrive parfois à faire une segfault) et que je suis maintenant obligé de prendre le sk98lin sur le 2.6.14-hardnened pour utiliser cette interface (un liveCD ou la dernière kaella ne peuvent rien faire non plus). J'ai même réussi à crasher le serveur en bootant windows (çà n'était encore jamais arrivé).

Bref, ya des intéractions mal définies entre ces drivers sous linux et le matériel, et ça fout une merde noire. Quant à savoir pouquoi le serveur en 2.6.14-hardened souffre de çà et pas le PC en 2.6.14-gentoo-r2... et savoir laquelle est responsable de çà (celle qui crashe, certes, mais dû à une négociation buggée de l'autre?)

J'ai quand même fait un emerge -e world sur le serveur, et vérifié que:
-le crash n'est pas totalement systématique (quand le du PC se fait sans encombre pour le serveur, je peux m'amuser à monter et arrêter le lien réseau, çà n'a plus d'influence).
-n'est jamais intervenu lorsque le lien était de type 100mbit (avec une nforce2 sur le PC) au lieu d'une autre marvell gigabit.

--
edit:
https://forums.gentoo.org/viewtopic-t-367286-highlight-marvell+yukon.html
https://forums.gentoo.org/viewtopic-t-375828-highlight-marvell+yukon.html

J'essaierai çà: http://www.syskonnect.com/support/driver/zip/linux/install-8_28.tar.bz2
http://www.syskonnect.com/support/driver/readme/linux/sk98lin.html
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Mon Dec 05, 2005 8:11 am    Post subject: Reply with quote

Bon, j'ai le sk98lin 8.28 sur mes 2 machines, ca n'a rien changé. Que dalle, nada.
Ca commence à me courir :evil: :evil:

La seule solution que je vois c'est une carte PCI gigabit alakon à 15€ :evil:
Quelqu'un en a une "qu'elle est bien" sous nunux? (ressources CPU, et taux de transfert, c'est surtout pour du NFS).

--
edit:
déjà, ça sera pas une D-Link DGE-530T, étant donné que c'est un chip... Marvell Yukon.
Ya pas mal de produits à base de Realtek 8169s (Netgear GA311 par exemple), dont un driver est dans le noyau 2.6. Il supporte les jumbo frames? Quelqu'un a un retour là-dessus?
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
Gnux
n00b
n00b


Joined: 14 Aug 2003
Posts: 38

PostPosted: Tue Dec 06, 2005 10:24 pm    Post subject: Reply with quote

El_Goretto wrote:
Bon, j'ai au moins fait le tour du problème, et j'en suis arrivé à la conclusion: c'est un problème de drivers.

Moi j'ai eu plein de soucis avec cette carte et ce chipset en particulier. Sous freebsd 5.4 je devais rebooter tout les heures et demi ce qui est énorme. En 6.0 ça s'est amélioré. J'ai suivi les discussions sur la liste pour amd64 et celle des hackers. Et eux après avoir fait le tour du problème on déduit que cela provenait de "design flaws in this chip" ce en quoi je l'ai rejoint entièrement.
En fait il faut regarder /var/log/messages et en général c'est un problème de watchdog timeout. Qu'est ce que cela a pu me faire souffrir ça. Mais visiblement sous windows c'est pareil alors. Alors face à ces timeout la seule solution c'est d'avoir une bonne horloge (car moi avec une horloge déréglé en 3mn j'étais déconnecté) soit tu as de bons nerfs soit (c'est le mieux!) tu sacrifies 15E pour acheter une carte digne de ce nom.
Les cartes aux chips pourris finiront par disparaître d'elle même. A titre informatif je n'utilise pas gentoo précisément parce qu'au stage 1 il ne me détectait pas cette carte :/ (et je voulais le faire depuis le stage 1). Ma mobo est une asus deluxe.
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Tue Dec 06, 2005 11:44 pm    Post subject: Reply with quote

Merci pour ton expérience, Gnux.

Je viens de tenté la manip' du désespoir, celle qu'on dit: "bah, et si ça passait sur un malentendu? Je vois pas pourquoi mais bon..." En l'occurence, essayer un noyau gentoo-sources 2.6.14-r2 à la place de mes 2 hardened 2.6.11r-15 (qui marchait très bien... avant quoi?) et 2.6.14.

Et... Ben merde, ça fait +24 heures que je reboote comme un furieux mon PC, et j'ai pas eu un seul pépin sur le serveur. DAMNED!!! :twisted:
(j'y ai cru) wrote:
Alors ok, ça remarche, et j'ai économisé 15€ (voir 30, faut se rappeler que j'ai 2 de ces gentils petits chips.) Mais j'en perds mon latin (sisi, je peux le perdre, j'en ai fais, ha!), et je pète un câble (je crois que ça s'est vu). 8O
Faut quand même savoir que j'ai fais çà proprement et en cherchant la petite bête, j'ai fait un oldconfig à partir de mon 2.6.14 hardened...

Bref, quand une appli me pose problème, généralement je lui passe un coup de chpax pour résoudre tout çà, mais pour un module? Ca se fait? Parce que si ca vient de PAX, et qu'il tue le module, je sais pas si ça peut être lui la cause d'un possible "arrêt" du noyau (d'où un "pouf c'est tout" sur le serveur?).
Sinon, je vais regarder la configuration noyau plus en détail, mettre un noyau hardened sans ses fonctions propres (comme PAX) pour y voir plus clair, mais après, je ne sais pas comment m'y prendre pour signaler ce phénomène. Juste un message sur le forum kernel/hardware? Ou bien une entrée bugzilla?


--
edit:
raté, ca vient de remerder, j'abandonne, et j'achete une carte PCI la semaine prochaine.
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
Oupsman
Veteran
Veteran


Joined: 19 Jul 2004
Posts: 1042

PostPosted: Mon Dec 12, 2005 12:58 pm    Post subject: Reply with quote

:roll: je crois que je viens de comprendre la raison des crashs de mon serveur :roll:

j'étais loin d'imaginer que cela pouvait provenir du driver réseau.

Le pire c'est que cela ne crash même pas en transfert intense réseau. Par exemple, crash cette nuit pendant un emerge world.

Je soupconne une intéraction entre le driver Marvell et le driver IDE/SATA.

Carte mère : ASUS A7N8X-E DELUXE avec un sempron 2200+, 1 GO de DDR dual channel, un DD 80 Go ATA 133 (partitionné 10 Go système, 2 Go SWAP et 60 Go LVM), un DD 200 Go ATA 133 LVM et un 300 Go SATA tout en LVM.
_________________
--
L'idéal de nouveauté semble avoir remplacé l'idéal de progrès. C'est bien triste.

----
Unix philosophy: "Do one thing and do it well."
systemd: "Try to do everything and do it wrong."
Back to top
View user's profile Send private message
El_Goretto
Moderator
Moderator


Joined: 29 May 2004
Posts: 3174
Location: Paris

PostPosted: Mon Dec 12, 2005 2:06 pm    Post subject: Reply with quote

Ben c'est pas sûr:
Serveur: Asus A7V880 avec le marvell et le SATA Via, et c'est lui qui plante.
PC: Asus A7N8XE Deluxe, avec le Marvell et SATA Sil (sans disque attaché), et c'est son reboot qui fait merder le serveur.

Toi ton serveur est sur la nforce2, si j'ai bien compris. Or, j'ai pas eu de pépin lorsque je rebootais (rarement) le serveur avec le PC allumé.
Je vais acheter cet aprem' une carte PCI, et je donnerai le résultat de mes expérience (voir sur quel machine il faut mettre cette carte pour contourner le problème).
_________________
-TrueNAS & jails: µ-serv Gen8 E3-1260L, 16Go ECC + µ-serv N40L, 10Go ECC
-Réseau: APU2C4 (OpenWRT) + GS726Tv3 + 2x GS108Tv2 + Archer C5v1 (OpenWRT)
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index French All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum