Anomalie #1282
fermédisk fail sur pavot.april.org
Description
Back to normal
Done:
mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013acheter deux disque SATA de 1TB 3.5'' ( commande 30527125589V )demander a Maxence d'aller remplacer le disque au datacenter de Rennescheck nginx : OK (loic)check bots : OK (loic)check lamp : OK (loic)check spamvir : OK (vx)check mail : OK (vx)check harmine : Semble ok (fred)check amphetamine : OK (loic)check ergine : Coupée (kankan)check munin : OK, mêmes infos que sur ns1
pavot IDRAC dit dans l'event log:
Critical 05/25/2013 08:07:23 Storage Drive 0: Drive Slot sensor for Storage, drive fault was asserted
poweredge-r300_Owner manual dit que
Drive failed Blinks amber four times per second.
La panne n'a pas été transparente, le syslog montre:
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00 May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371 May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266 May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6 May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267 May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00 May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739 May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6. May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called. May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00 May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147 May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted
Fichiers
Mis à jour par Loïc Dachary il y a plus de 11 ans
remonter /var qui est en readonly
for i in dbus atd cron rsyslog ; do /etc/init.d/$i stop ; done /etc/init.d/munin-node stop /etc/init.d/openvpn stop umount /var mount /var for i in dbus atd cron rsyslog ; do /etc/init.d/$i start ; done /etc/init.d/munin-node start /etc/init.d/openvpn start
Mis à jour par Loïc Dachary il y a plus de 11 ans
stop les vserver
/etc/init.d/util-vserver stop
vérifier l'état du disque
umount /srv root@pavot:~# fsck /dev/sda6 fsck 1.41.3 (12-Oct-2008) e2fsck 1.41.3 (12-Oct-2008) /dev/sda6 contient un système de fichiers comportant des erreurs, vérification forcée. Passe 1 : vérification des i-noeuds, des blocs et des tailles des i-noeuds qui faisaient partie d'une liste chaînée d'orphelins corrompue ont été repérés. Corriger<o>? oui l'i-noeud 21889104 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889171 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889525 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889569 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889579 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889622 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889858 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21897220 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192440 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192596 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192632 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192734 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22602046 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 23617887 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud effacé 31048583 a un dtime à zéro. Corriger<o>? oui l'i-noeud 45917714 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50455924 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50455980 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50456075 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50456076 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 56772234 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878469 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878470 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878472 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878473 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878474 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878476 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878477 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878481 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878483 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878489 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878490 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878491 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. Passe 2 : vérification de la structure des répertoires Passe 3 : vérification de la connectivité des répertoires Passe 4 : vérification des compteurs de référence Passe 5 : vérification de l'information du sommaire de groupe différences de bitmap de blocs: -87572848 -(87575184--87575188) -87575313 -(87575514--87575519) -(87575540--87575543) -(87575554--87575559) -(87576088--87576095) -(87576122--87576141) -87577241 -(87577606--87577607) -(87578083--87578087) -87604167 -(87613260--87613300) -(87613874--87613997) -(87614024--87614032) -87614034 -(87614036--87614056) -87614059 -(87614073--87614197) -(87614216--87614290) -(87619476--87619479) -(87619555--87619583) -(87619608--87619651) -(87619653--87619670) -(87619674--87619678) -(87619683--87619686) -(87619735--87619742) -(87619761--87619766) -(87619888--87619918) -(87619922--87619926) -(87619942--87619943) -(87620222--87620350) -(87624265--87624307) -(87624309--87624316) -(87624318--87624343) -(87708160--87708208) -(87708210--87708214) -(87708222--87708264) -(87708278--87708286) -(87709811--87709812) -87713792 -(87713795--87713800) -(87713816--87713817) -(87787761--87787839) -87790232 -87791616 -(87791637--87791638) -(87791646--87791648) -(87791650--87791651) -(87792495--87792499) -(87795634--87795684) -(87796518--87796519) -87797863 -(87799075--87799079) -87799816 -(87800056--87800249) -88770564 -88880866 -88880890 -88881132 -88881409 -88881425 -89363269 -90437706 -94488576 -183674978 -(183675004--183675083) -(201834068--201834156) -(201840669--201840674) -(201840680--201841175) -227143813 -(227143815--227143816) -(227143818--227143819) -(227143821--227143822) -(235530240--235530246) -(235530248--235530275) -(235530281--235530355) -(235530358--235530717) -(235530739--235530761) -(235530770--235530778) -(235530845--235530990) Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2672 (0, décompté=59). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2673 (107, décompté=790). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2674 (92, décompté=169). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2676 (0, décompté=117). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2679 (0, décompté=347). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2709 (0, décompté=1). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2712 (60, décompté=65). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2727 (64, décompté=65). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2759 (0, décompté=1). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2883 (2, décompté=3). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°5605 (14789, décompté=14870). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°6159 (1021, décompté=1612). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°6931 (28703, décompté=28710). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°7187 (9413, décompté=10061). Corriger<o>? oui Le décompte des blocs libres est erroné (80399167, décompté=80401786). Corriger<o>? oui odifférences de bitmap d'i-noeuds : -21889104 -21889171 -21889525 -21889569 -21889579 -21889622 -21889858 -21897220 -22192440 -22192596 -22192632 -22192734 -22602046 -23617887 -31048583 -45917714 -50455924 -50455980 -(50456075--50456076) -56772234 -(58878469--58878470) -(58878472--58878474) -(58878476--58878477) -58878481 -58878483 -(58878489--58878491) Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2672 (6827, décompté=6834). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2673 (7379, décompté=7380). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2709 (139, décompté=143). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2759 (7762, décompté=7763). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2883 (5261, décompté=5262). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°3790 (4356, décompté=4357). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°5605 (5985, décompté=5986). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°6159 (6363, décompté=6367). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°6930 (6053, décompté=6054). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°7187 (5227, décompté=5239). Corriger<o>? oui Le décompte des i-noeuds libres est erroné (46787450, décompté=46787483). Corriger<o>? oui /dev/sda6: ***** LE SYSTÈME DE FICHIERS A ÉTÉ MODIFIÉ ***** /dev/sda6 : 13743205/60530688 fichiers (1.9% non contigus), 161701772/242103558 blocs mount /srv
relancer les vservers
/etc/init.d/util-vservers start
Mis à jour par Loïc Dachary il y a plus de 11 ans
- Echéance changé de 25/05/2013 à 31/05/2013
- Assigné à changé de Loïc Dachary à Quentin CHERGUI
Mis à jour par Maxence Dunnewind il y a plus de 11 ans
Je passe ce midi vérifier l'état du disque (voir les LED en facade).
Mis à jour par Loïc Dachary il y a plus de 11 ans
(12:24:13 PM) Sp4rKy: je viens de retirer le dd de pavot (12:24:18 PM) Sp4rKy: qui est effectivemùent hs (12:25:01 PM) Sp4rKy: a priori ca a pas gené pavot de perdre un disque :)
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
Coupure de Ergine comme mentionné sur sa page wiki : http://192.168.1.33:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:ergine
Suppression de /etc/vservers/ergine/apps/init/mark (sur Pavot) pour éviter qu'elle ne démarre au prochain reboot.
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
La machine Munin n'a pas l'air documentée, n'a pas de serveur web actif et ne correspond à aucun des munin en prod.
À stopper puis supprimer ?
Mis à jour par Maxence Dunnewind il y a plus de 11 ans
Commande en cours chez LDLC, n° de suivi 9L01017623954
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
Il semblerait que Nagios détecte la machine comme down depuis la panne :
http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april-int
L'IP configurée dans Nagios est 192.168.2.254, qui ne semble plus être configurée nulle part sur Pavot. D'ailleurs, pavot.april-int renvoie vers son IP publique, et une autre entrée pour Pavot existe sous le nom de pavot.april.org : http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april.org
Une entrée obsolète ? (si j'en crois le manifest Puppet, il faut juste le relancer pour qu'il mette à jour l'adresse IP de l'objet)
(Question subsidiaire : pourquoi ne pas utiliser DNS dans les adresse que l'on donne à Nagios ? Ça éviterai ce genre de cas...)
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
root@pavot:~# puppet agent --test info: Retrieving plugin info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Caching catalog for pavot.april-int info: Applying configuration version '1367245531' notice: Finished catalog run in 1.11 seconds root@pavot:~# puppet agent -vt info: Retrieving plugin info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Caching catalog for pavot.april-int info: Applying configuration version '1367245531' notice: Finished catalog run in 0.61 seconds root@pavot:~# logout Connection to pavot.april-int closed. kankan@Aelita:~$ ssh root@nagios.vm.april-int Linux wheezy 3.2.0-3-amd64 #1 SMP Mon Jul 23 02:45:17 UTC 2012 x86_64 The programs included with the Debian GNU/Linux system are free software; the exact distribution terms for each program are described in the individual files in /usr/share/doc/*/copyright. Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law. You have mail. Last login: Thu May 30 16:31:18 2013 from 192.168.3.34 root@nagios:~# puppet agent --test info: Retrieving plugin info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb info: Caching catalog for nagios.vm.april-int info: Applying configuration version '1367245531' notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]/hostgroups: defined 'hostgroups' as 'munin-node' info: FileBucket adding {md5}81d0b5ad79bf09797c290012623834c3 info: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]: Scheduling refresh of Service[nagios3] notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/Service[nagios3]: Triggered 'refresh' from 1 events notice: Finished catalog run in 5.02 seconds root@nagios:~# puppet agent -vt info: Retrieving plugin info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb info: Caching catalog for nagios.vm.april-int info: Applying configuration version '1367245531' notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully notice: Finished catalog run in 2.41 seconds root@nagios:~#
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
L'adresse IP n'a pas été mise à jour en relançant le puppet-agent...
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
L'adresse IP en question est dans le /etc/network/interfaces :
auto bond0 iface bond0 inet static address 192.168.25.117 netmask 255.255.255.0 gateway 192.168.25.253 slaves eth0 eth1 bond_mode active-backup bond_miimon 100 hwaddress ether 00:22:19:b2:00:c6 up ip addr add 192.168.2.254/16 dev eth0
Ajoutée manuellement :
root@pavot:~# ip addr add 192.168.2.254/16 dev eth0
Mis à jour par Maxence Dunnewind il y a plus de 11 ans
Disques recus. Changement prévu demain, pas de coupure à prévoir. Si besoin d'annuler le changement, prévenir par sms.
Maxence
Mis à jour par Loïc Dachary il y a plus de 11 ans
il faudrait que
up ip addr add 192.168.2.254/16 dev eth0
soit
up ip addr add 192.168.2.254/16 dev bond0
Mis à jour par Loïc Dachary il y a plus de 11 ans
root@pavot:/etc# git show commit b5a3350064742d54afdd7ff8f2b2cba40f38a394 Author: root <root@april.org> Date: Sun Jun 2 10:38:58 2013 +0200 add the IP to bond0 so that it is not removed because eth0 is a slave of bond0 diff --git a/network/interfaces b/network/interfaces index 4f2515d..da0f424 100644 --- a/network/interfaces +++ b/network/interfaces @@ -14,7 +14,7 @@ iface bond0 inet static bond_mode active-backup bond_miimon 100 hwaddress ether 00:22:19:b2:00:c6 - up ip addr add 192.168.2.254/16 dev eth0 + up ip addr add 192.168.2.254/16 dev bond0 #auto dummy0 #iface dummy0 inet static
Mis à jour par Loïc Dachary il y a plus de 11 ans
- Statut changé de En cours de traitement à Fermé
- % réalisé changé de 90 à 100
Mis à jour par Quentin CHERGUI il y a plus de 11 ans
Installation d'un serveur web sur le vserver munin. On y retrouve les mêmes graphes que sur celui de ns1 :
http://192.168.2.55:8080/munin/