Actions
Anomalie #4601
ferméRedémarrage difficile des vm coon
Statut:
Fermé
Priorité:
Élevée
Assigné à:
Christian P. Momon
Catégorie:
-
Version cible:
Début:
15/07/2020
Echéance:
% réalisé:
0%
Temps estimé:
Description
Suite à une simple mise à jour de sécurité, de grosses difficultés à redémarrer coon.
Quelques traces :
Voici quelques traces : <pre> =(^-^)=root@coon:/etc/libvirt/qemu# for host in $(ls *xml | sed -e 's/.xml//g'| grep -v modele) ; do virsh start $host ; done error: Failed to start domain admin error: Requested operation is not valid: network 'default' is not active error: Failed to start domain allo error: Requested operation is not valid: network 'default' is not active error: Failed to start domain bastion error: Requested operation is not valid: network 'default' is not active error: Failed to start domain bla error: Requested operation is not valid: network 'default' is not active error: Failed to start domain dns error: Requested operation is not valid: network 'default' is not active error: Failed to start domain drop error: Requested operation is not valid: network 'default' is not active error: Failed to start domain lamp error: Requested operation is not valid: network 'default' is not active error: Failed to start domain libreoffice error: Requested operation is not valid: network 'default' is not active error: Failed to start domain ludo error: Requested operation is not valid: network 'default' is not active error: Failed to start domain mail error: Requested operation is not valid: network 'default' is not active error: Failed to start domain pad error: Requested operation is not valid: network 'default' is not active error: Failed to start domain pouet error: Requested operation is not valid: network 'default' is not active error: Failed to start domain sympa error: Requested operation is not valid: network 'default' is not active error: Failed to start domain valise error: Requested operation is not valid: network 'default' is not active error: Failed to start domain xmpp error: Requested operation is not valid: network 'default' is not active ================================================================================================= En regardant Virtmanager > coon > réseaux virtuels > default > État, il est indiqué « inactif ». Si activation alors : Erreur lors du démarrage du réseau « default »: internal error: Network is already in use by interface virbr0 Traceback (most recent call last): File "/usr/share/virt-manager/virtManager/asyncjob.py", line 75, in cb_wrapper callback(asyncjob, *args, **kwargs) File "/usr/share/virt-manager/virtManager/asyncjob.py", line 111, in tmpcb callback(*args, **kwargs) File "/usr/share/virt-manager/virtManager/libvirtobject.py", line 66, in newfn ret = fn(self, *args, **kwargs) File "/usr/share/virt-manager/virtManager/network.py", line 76, in start self._backend.create() File "/usr/lib/python3/dist-packages/libvirt.py", line 2996, in create if ret == -1: raise libvirtError ('virNetworkCreate() failed', net=self) libvirt.libvirtError: internal error: Network is already in use by interface virbr0 ================================================================================================= juil. 15 00:57:44 coon.chapril.org icinga2[1305]: [2020-07-15 00:57:44 +0200] information/ApiListener: Finished reconnecting to endpoint 'admin.cluster.chapril.org' via host 'admin.cluster.chapril.org' and port '5665' juil. 15 00:57:44 coon.chapril.org systemd[1]: Reloading Postfix Mail Transport Agent. juil. 15 00:57:44 coon.chapril.org systemd[1]: Reloaded Postfix Mail Transport Agent. juil. 15 00:57:44 coon.chapril.org kernel: e1000e: enp1s0 NIC Link is Down juil. 15 00:57:44 coon.chapril.org kernel: virbr0: port 2(enp1s0) entered disabled state juil. 15 00:57:44 coon.chapril.org libvirtd[2697]: libvirt version: 5.0.0, package: 4+deb10u1 (Guido Günther <agx@sigxcpu.org> Thu, 05 Dec 2019 00:22:14 +0100) juil. 15 00:57:44 coon.chapril.org libvirtd[2697]: hostname: coon.chapril.org juil. 15 00:57:44 coon.chapril.org libvirtd[2697]: Network name='default' uuid=0f6e21a4-a6e3-45fe-af5b-3af5361ec327 is tainted: hook-script juil. 15 00:57:44 coon.chapril.org libvirtd[2697]: internal error: Network is already in use by interface virbr0 juil. 15 00:57:45 coon.chapril.org kernel: drop UNMATCHED IN-external_trIN=enp0s31f6 OUT= MAC=90:1b:0e:cb:cd:12:40:71:83:a5:f1:d0:08:00 SRC=185.39.11.32 DST=94.130.8.3 LEN=40 TOS=0x00 PREC=0x00 TTL=250 ID=60789 PROTO=TCP SPT=41728 DPT=622 WINDOW=1024 RES=0x00 SYN URGP=0 juil. 15 00:57:52 coon.chapril.org sshd[2762]: pam_unix(sshd:auth): authentication failure; logname= uid=0 euid=0 tty=ssh ruser= rhost=222.186.173.226 user=root juil. 15 00:57:52 coon.chapril.org systemd[1]: systemd-fsckd.service: Succeeded. juil. 15 00:57:52 coon.chapril.org kernel: drbd coon: bind before connect failed, err = -99 juil. 15 00:57:52 coon.chapril.org kernel: drbd coon: conn( WFConnection -> Disconnecting ) juil. 15 00:57:53 coon.chapril.org kernel: drop UNMATCHED IN-external_trIN=enp0s31f6 OUT= MAC=90:1b:0e:cb:cd:12:40:71:83:a5:f1:d0:08:00 SRC=93.174.93.123 DST=94.130.8.3 LEN=40 TOS=0x00 PREC=0x00 TTL=250 ID=57905 PROTO=TCP SPT=43411 DPT=11395 WINDOW=1024 RES=0x00 SYN URGP=0 juil. 15 00:57:54 coon.chapril.org sshd[2762]: Failed password for root from 222.186.173.226 port 62800 ssh2 juil. 15 00:57:54 coon.chapril.org icinga2[1305]: [2020-07-15 00:57:54 +0200] information/ApiListener: Reconnecting to endpoint 'admin.cluster.chapril.org' via host 'admin.cluster.chapril.org' and port '5665' juil. 15 00:57:54 coon.chapril.org FireHOL[2965]: FireHOL started from '/' with: /usr/sbin/firehol start juil. 15 00:57:54 coon.chapril.org FireHOL[2967]: Saving active firewall to a temporary file started juil. 15 00:57:54 coon.chapril.org delayed_fw_reload[2714]: FireHOL: Saving active firewall to a temporary file... OK juil. 15 00:57:54 coon.chapril.org FireHOL[2979]: Saving active firewall to a temporary file succeeded juil. 15 00:57:54 coon.chapril.org FireHOL[2980]: Processing file '/etc/firehol/firehol.conf' started juil. 15 00:57:55 coon.chapril.org drbd[1324]: WARN: stdin/stdout is not a TTY; using /dev/console juil. 15 00:57:55 coon.chapril.org drbd[1324]: . juil. 15 00:57:55 coon.chapril.org systemd[1]: Started LSB: Control DRBD resources.. juil. 15 00:57:55 coon.chapril.org kernel: drbd maine: bind before connect failed, err = -99 juil. 15 00:57:55 coon.chapril.org kernel: drbd maine: conn( WFConnection -> Disconnecting ) </pre>
Actions
#2
Mis à jour par Christian P. Momon il y a plus de 4 ans
- Statut changé de Nouveau à En cours de traitement
- Priorité changé de Normale à Élevée
Pour débloquer la situation, il a fallu annuler des modifs de configuration de minetest dans firehol.conf alors que ce dernier ne présente absolument aucune source potentielle d'anomalie.
Actions
#3
Mis à jour par Christian P. Momon il y a plus de 4 ans
Commentaire de PoluX sur #4599 :
Après une longue investigation avec Christian, on a tiqué sur :
Jul 15 00:01:20 coon delayed_fw_reload[1616]: ERROR: FireHOL is already running. Exiting...
On soupçonne une race condition qui apparait du fait que les regles iptables deviennent nombreuses (4000).
En regardant la conf systemd de libvirtd sur coon on tombe sur :
Drop-In: /etc/systemd/system/libvirtd.service.d
└─override.conf
[...]
Process: 1441 ExecStartPost=/usr/local/bin/delayed_fw_reload (code=exited, status=0/SUCCESS)
Ça ressemble à une cochonceté oubliée, datant des premiers jours du cluster. Depuis, les hooks network on rendu ça inutiles.
Par ailleurs le code impliqué est plus que naïf.
# cat /usr/local/bin/delayed_fw_reload
#!/bin/bash
sleep 10 && firehol start
Je dégage tout ça de coon. Maine en est exempt.
Actions
#4
Mis à jour par Christian P. Momon il y a plus de 4 ans
Le test de redémarrage avec les modifs firehost ré-intégrées donne un résultat nominal. Donc nous validons que ça venait de ça \o/
Actions
#5
Mis à jour par Christian P. Momon il y a plus de 4 ans
- Statut changé de En cours de traitement à Résolu
Actions
#6
Mis à jour par Christian P. Momon il y a plus de 4 ans
- Lié à Anomalie #3603: Rédémarrage difficile des vm de coon ajouté
Actions
#7
Mis à jour par Christian P. Momon il y a plus de 4 ans
- Lié à Demande #4599: Ouverture de ports pour ludo ajouté
Actions
#9
Mis à jour par Christian P. Momon il y a plus de 4 ans
- Version cible changé de Backlog à Sprint 2020 été
Actions