Projet

Général

Profil

Actions

Anomalie #5872

fermé

[Incident] panne de maine

Ajouté par pitchum . il y a plus de 2 ans. Mis à jour il y a plus de 2 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
-
Catégorie:
-
Version cible:
Début:
07/05/2022
Echéance:
% réalisé:

0%

Temps estimé:

Description

Hier soir, suite à l'ajout de RAM, maine était fonctionnelle. Ce matin elle ne répondait plus, je l'ai donc rebootée.

J'ai ensuite entamé la procédure documentée, mais ça échoue dès l'étape "mount /var/lib/libvirt/maine".
J'ai essayé à 3 reprises, et le message d'erreur était différent : d'abord "mount(2) system call failed: Structure needs cleaning", puis "mount(2) system call failed: wrong medium type".

Avant de tenter des fsck ou autre, je préfère laisser la synchro drbd se terminer. C'est peut-être ça le souci.

=(^-^)=root@maine:~# cat /proc/drbd 
version: 8.4.11 (api:1/proto:86-101)
srcversion: 64A42A9F69B042124E03E95 
 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r-----
    ns:5067080 nr:0 dw:0 dr:5067080 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 1: cs:SyncTarget ro:Secondary/Primary ds:Inconsistent/UpToDate C r-----
    ns:0 nr:634412 dw:634412 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:4055180
        [>...................] sync'ed:  9.8% (3960/4384)M
        finish: 1:44:52 speed: 628 (704) want: 360 K/sec

Mis à jour par pitchum . il y a plus de 2 ans

La machine a arrêter d'écrire des logs à 1h50 cette nuit.

Dans kern.log on voit apparaître des "general protection fault". Ça pourrait être causé par une barrette de RAM défectueuse ?

May  7 00:52:43 maine kernel: [ 9793.975205] traps: python3[22612] general protection fault ip:501e7f sp:7ffc0d9809d0 error:0 in python3.9[41f000+288000]
May  7 01:15:59 maine kernel: [11190.009433] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#1] SMP PTI
May  7 01:15:59 maine kernel: [11190.009444] CPU: 4 PID: 22558 Comm: worker Not tainted 5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:15:59 maine kernel: [11190.009449] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:16:23 maine kernel: [11213.457687] general protection fault, probably for non-canonical address 0x37ffd2e2fc6dfb00: 0000 [#2] SMP PTI
May  7 01:16:23 maine kernel: [11213.457696] CPU: 2 PID: 23081 Comm: kworker/u16:1 Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:16:23 maine kernel: [11213.457700] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:34:06 maine kernel: [12276.409128] traps: python3[26657] general protection fault ip:5029f0 sp:7ffe2f7eed90 error:0 in python3.9[41f000+288000]
May  7 01:39:43 maine kernel: [12614.253482] attempt to access beyond end of device
May  7 01:39:43 maine kernel: [12614.253482] sda1: rw=2049, want=14411518810129594840, limit=7814035087
May  7 01:40:19 maine kernel: [12649.373856] traps: needrestart[27242] general protection fault ip:55a32e84a7cd sp:7ffda05eced0 error:0 in perl[55a32e747000+185000]
May  7 01:40:37 maine kernel: [12667.518669] drbd coon: meta connection shut down by peer.
May  7 01:40:37 maine kernel: [12667.518685] drbd coon: peer( Primary -> Unknown ) conn( Connected -> NetworkFailure ) pdsk( UpToDate -> DUnknown ) 
--
May  7 01:41:25 maine kernel: [12715.635532] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#3] SMP PTI
May  7 01:41:25 maine kernel: [12715.635547] CPU: 6 PID: 27208 Comm: worker Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:41:25 maine kernel: [12715.635554] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:41:49 maine kernel: [12740.206654] general protection fault, probably for non-canonical address 0x3fffd2e2fd87ebc0: 0000 [#4] SMP PTI
May  7 01:41:49 maine kernel: [12740.206660] CPU: 3 PID: 15213 Comm: kworker/u16:6 Tainted: G      D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:41:49 maine kernel: [12740.206662] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
--
May  7 01:45:04 maine kernel: [12935.035704] traps: python3.9[27750] general protection fault ip:52522d sp:7fff0f9a9de0 error:0 in python3.9[41f000+288000]
May  7 01:45:04 maine kernel: [12935.101027] traps: python3.9[27751] general protection fault ip:525172 sp:7fffe9c1ca10 error:0 in python3.9[41f000+288000]
May  7 01:46:17 maine kernel: [13007.557457] traps: python3[27902] trap stack segment ip:502d1d sp:7ffdbc002480 error:0 in python3.9[41f000+288000]
May  7 01:48:23 maine kernel: [13133.802241] traps: libvirt_leasesh[28110] general protection fault ip:7f1674883a8c sp:7fff74aefb38 error:0 in libstdc++.so.6.0.28[7f1674877000+dc000]
May  7 01:49:27 maine kernel: [13198.191682] general protection fault, probably for non-canonical address 0xc800000000000000: 0000 [#6] SMP PTI
May  7 01:49:27 maine kernel: [13198.191687] CPU: 5 PID: 27985 Comm: worker Tainted: G    B D W         5.10.0-14-amd64 #1 Debian 5.10.113-1
May  7 01:49:27 maine kernel: [13198.191689] Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.5.0 for D3401-H2x                     02/27/2017
grep: (entrée standard): binary file matches

Mis à jour par pitchum . il y a plus de 2 ans

La synchro DRBD est finie, mais le mount échoue toujours.

=(^-^)=root@maine:~# cat /proc/drbd 
version: 8.4.11 (api:1/proto:86-101)
srcversion: 64A42A9F69B042124E03E95 
 0: cs:Connected ro:Secondary/Secondary ds:UpToDate/UpToDate C r-----
    ns:0 nr:0 dw:0 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
 1: cs:Connected ro:Secondary/Primary ds:UpToDate/UpToDate C r-----
    ns:0 nr:5196 dw:5196 dr:0 al:0 bm:0 lo:0 pe:0 ua:0 ap:0 ep:1 wo:f oos:0
=(^-^)=root@maine:~# LC_ALL=C mount /var/lib/libvirt/maine
mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type.

Mis à jour par Pierre-Louis Bonicoli il y a plus de 2 ans

À propos de l'erreur mount: /var/lib/libvirt/maine: mount(2) system call failed: Wrong medium type. et en regardant la doc april Les deux partages sont en secondary, il faudrait que celui de maine soit en mode primary. Ne faut-il pas utiliser la commande drbdadm primary maine ?

Mis à jour par Quentin Gibeaux il y a plus de 2 ans

J'ai tenté le mount en primary c'est pareil, structure need to be cleaned.

On peut basculer toutes les VM sur coon, en attendant d'avoir un maine OK, la procédure est dans le dokuwiki (dumpé sur git) cf : admin/procedures/basculer_cluster.txt

Mis à jour par Romain H. il y a plus de 2 ans

J'ai appliqué la procédure de basculement, les VMs et les services ont l'air de bien démarrer sur coon.
J'ai arrêté le serveur maine avec un halt.

Les commandes suivantes n'ont pas fonctionné :

ip route replace default via 94.130.8.1 dev enp0s31f6 src 88.99.233.240
ip route replace 94.130.8.1 dev enp0s31f6 proto kernel scope link src 88.99.233.240

Erreur :

Error: Nexthop has invalid gateway.

Mis à jour par Romain H. il y a plus de 2 ans

J'ai redémarré maine en rescue et je teste la ram avec memtester.

Mis à jour par Romain H. il y a plus de 2 ans

La RAM était HS.
J'ai crée un ticket, ils ont changé la RAM.
Je reboot en rescue pour relancer un test vérifier qu'il y a plus d'erreur.
Je suis obligé de reboot avec un reset car le mdp que le support a communiqué n'est pas le bon.

Mis à jour par Romain H. il y a plus de 2 ans

La nouvelle RAM a été testée et est ok.
La bascule inverse a été effectuée.
La synchro DRBD est encore en cours (fin dans 22min).

Mis à jour par Quentin Gibeaux il y a plus de 2 ans

  • Statut changé de En cours de traitement à Résolu

Mis à jour par Quentin Gibeaux il y a plus de 2 ans

  • Statut changé de Résolu à Fermé
Actions

Formats disponibles : Atom PDF