Anomalie #1282
closeddisk fail sur pavot.april.org
Description
Back to normal
Done:
mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013acheter deux disque SATA de 1TB 3.5'' ( commande 30527125589V )demander a Maxence d'aller remplacer le disque au datacenter de Rennescheck nginx : OK (loic)check bots : OK (loic)check lamp : OK (loic)check spamvir : OK (vx)check mail : OK (vx)check harmine : Semble ok (fred)check amphetamine : OK (loic)check ergine : Coupée (kankan)check munin : OK, mêmes infos que sur ns1
pavot IDRAC dit dans l'event log:
Critical 05/25/2013 08:07:23 Storage Drive 0: Drive Slot sensor for Storage, drive fault was asserted
poweredge-r300_Owner manual dit que
Drive failed Blinks amber four times per second.
La panne n'a pas été transparente, le syslog montre:
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00 May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371 May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266 May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6 May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267 May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00 May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739 May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6. May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called. May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current] May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00 May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147 May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted
Files
Updated by Loïc Dachary over 11 years ago
remonter /var qui est en readonly
for i in dbus atd cron rsyslog ; do /etc/init.d/$i stop ; done /etc/init.d/munin-node stop /etc/init.d/openvpn stop umount /var mount /var for i in dbus atd cron rsyslog ; do /etc/init.d/$i start ; done /etc/init.d/munin-node start /etc/init.d/openvpn start
Updated by Loïc Dachary over 11 years ago
stop les vserver
/etc/init.d/util-vserver stop
vérifier l'état du disque
umount /srv root@pavot:~# fsck /dev/sda6 fsck 1.41.3 (12-Oct-2008) e2fsck 1.41.3 (12-Oct-2008) /dev/sda6 contient un système de fichiers comportant des erreurs, vérification forcée. Passe 1 : vérification des i-noeuds, des blocs et des tailles des i-noeuds qui faisaient partie d'une liste chaînée d'orphelins corrompue ont été repérés. Corriger<o>? oui l'i-noeud 21889104 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889171 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889525 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889569 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889579 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889622 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21889858 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 21897220 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192440 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192596 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192632 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22192734 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 22602046 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 23617887 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud effacé 31048583 a un dtime à zéro. Corriger<o>? oui l'i-noeud 45917714 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50455924 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50455980 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50456075 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 50456076 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 56772234 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878469 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878470 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878472 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878473 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878474 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878476 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878477 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878481 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878483 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878489 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878490 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. l'i-noeud 58878491 fait partie de la liste des i-noeuds orphelins. CORRIGÉ. Passe 2 : vérification de la structure des répertoires Passe 3 : vérification de la connectivité des répertoires Passe 4 : vérification des compteurs de référence Passe 5 : vérification de l'information du sommaire de groupe différences de bitmap de blocs: -87572848 -(87575184--87575188) -87575313 -(87575514--87575519) -(87575540--87575543) -(87575554--87575559) -(87576088--87576095) -(87576122--87576141) -87577241 -(87577606--87577607) -(87578083--87578087) -87604167 -(87613260--87613300) -(87613874--87613997) -(87614024--87614032) -87614034 -(87614036--87614056) -87614059 -(87614073--87614197) -(87614216--87614290) -(87619476--87619479) -(87619555--87619583) -(87619608--87619651) -(87619653--87619670) -(87619674--87619678) -(87619683--87619686) -(87619735--87619742) -(87619761--87619766) -(87619888--87619918) -(87619922--87619926) -(87619942--87619943) -(87620222--87620350) -(87624265--87624307) -(87624309--87624316) -(87624318--87624343) -(87708160--87708208) -(87708210--87708214) -(87708222--87708264) -(87708278--87708286) -(87709811--87709812) -87713792 -(87713795--87713800) -(87713816--87713817) -(87787761--87787839) -87790232 -87791616 -(87791637--87791638) -(87791646--87791648) -(87791650--87791651) -(87792495--87792499) -(87795634--87795684) -(87796518--87796519) -87797863 -(87799075--87799079) -87799816 -(87800056--87800249) -88770564 -88880866 -88880890 -88881132 -88881409 -88881425 -89363269 -90437706 -94488576 -183674978 -(183675004--183675083) -(201834068--201834156) -(201840669--201840674) -(201840680--201841175) -227143813 -(227143815--227143816) -(227143818--227143819) -(227143821--227143822) -(235530240--235530246) -(235530248--235530275) -(235530281--235530355) -(235530358--235530717) -(235530739--235530761) -(235530770--235530778) -(235530845--235530990) Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2672 (0, décompté=59). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2673 (107, décompté=790). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2674 (92, décompté=169). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2676 (0, décompté=117). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2679 (0, décompté=347). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2709 (0, décompté=1). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2712 (60, décompté=65). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2727 (64, décompté=65). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2759 (0, décompté=1). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°2883 (2, décompté=3). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°5605 (14789, décompté=14870). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°6159 (1021, décompté=1612). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°6931 (28703, décompté=28710). Corriger<o>? oui Le décompte des blocs libres est erroné pour le groupe n°7187 (9413, décompté=10061). Corriger<o>? oui Le décompte des blocs libres est erroné (80399167, décompté=80401786). Corriger<o>? oui odifférences de bitmap d'i-noeuds : -21889104 -21889171 -21889525 -21889569 -21889579 -21889622 -21889858 -21897220 -22192440 -22192596 -22192632 -22192734 -22602046 -23617887 -31048583 -45917714 -50455924 -50455980 -(50456075--50456076) -56772234 -(58878469--58878470) -(58878472--58878474) -(58878476--58878477) -58878481 -58878483 -(58878489--58878491) Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2672 (6827, décompté=6834). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2673 (7379, décompté=7380). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2709 (139, décompté=143). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2759 (7762, décompté=7763). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°2883 (5261, décompté=5262). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°3790 (4356, décompté=4357). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°5605 (5985, décompté=5986). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°6159 (6363, décompté=6367). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°6930 (6053, décompté=6054). Corriger<o>? oui Le décompte des i-noeuds libres est erroné pour le groupe n°7187 (5227, décompté=5239). Corriger<o>? oui Le décompte des i-noeuds libres est erroné (46787450, décompté=46787483). Corriger<o>? oui /dev/sda6: ***** LE SYSTÈME DE FICHIERS A ÉTÉ MODIFIÉ ***** /dev/sda6 : 13743205/60530688 fichiers (1.9% non contigus), 161701772/242103558 blocs mount /srv
relancer les vservers
/etc/init.d/util-vservers start
Updated by Loïc Dachary over 11 years ago
- Due date changed from 05/25/2013 to 05/31/2013
- Assignee changed from Loïc Dachary to Quentin CHERGUI
Updated by Maxence Dunnewind over 11 years ago
Je passe ce midi vérifier l'état du disque (voir les LED en facade).
Updated by Loïc Dachary over 11 years ago
(12:24:13 PM) Sp4rKy: je viens de retirer le dd de pavot (12:24:18 PM) Sp4rKy: qui est effectivemùent hs (12:25:01 PM) Sp4rKy: a priori ca a pas gené pavot de perdre un disque :)
Updated by Quentin CHERGUI over 11 years ago
Coupure de Ergine comme mentionné sur sa page wiki : http://192.168.1.33:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:ergine
Suppression de /etc/vservers/ergine/apps/init/mark (sur Pavot) pour éviter qu'elle ne démarre au prochain reboot.
Updated by Quentin CHERGUI over 11 years ago
La machine Munin n'a pas l'air documentée, n'a pas de serveur web actif et ne correspond à aucun des munin en prod.
À stopper puis supprimer ?
Updated by Maxence Dunnewind over 11 years ago
Commande en cours chez LDLC, n° de suivi 9L01017623954
Updated by Quentin CHERGUI over 11 years ago
Il semblerait que Nagios détecte la machine comme down depuis la panne :
http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april-int
L'IP configurée dans Nagios est 192.168.2.254, qui ne semble plus être configurée nulle part sur Pavot. D'ailleurs, pavot.april-int renvoie vers son IP publique, et une autre entrée pour Pavot existe sous le nom de pavot.april.org : http://nagios.vm.april-int/cgi-bin/nagios3/extinfo.cgi?type=1&host=pavot.april.org
Une entrée obsolète ? (si j'en crois le manifest Puppet, il faut juste le relancer pour qu'il mette à jour l'adresse IP de l'objet)
(Question subsidiaire : pourquoi ne pas utiliser DNS dans les adresse que l'on donne à Nagios ? Ça éviterai ce genre de cas...)
Updated by Quentin CHERGUI over 11 years ago
root@pavot:~# puppet agent --test info: Retrieving plugin info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Caching catalog for pavot.april-int info: Applying configuration version '1367245531' notice: Finished catalog run in 1.11 seconds root@pavot:~# puppet agent -vt info: Retrieving plugin info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Loading facts in concat_basedir info: Loading facts in root_home info: Loading facts in puppet_vardir info: Loading facts in pe_version info: Caching catalog for pavot.april-int info: Applying configuration version '1367245531' notice: Finished catalog run in 0.61 seconds root@pavot:~# logout Connection to pavot.april-int closed. kankan@Aelita:~$ ssh root@nagios.vm.april-int Linux wheezy 3.2.0-3-amd64 #1 SMP Mon Jul 23 02:45:17 UTC 2012 x86_64 The programs included with the Debian GNU/Linux system are free software; the exact distribution terms for each program are described in the individual files in /usr/share/doc/*/copyright. Debian GNU/Linux comes with ABSOLUTELY NO WARRANTY, to the extent permitted by applicable law. You have mail. Last login: Thu May 30 16:31:18 2013 from 192.168.3.34 root@nagios:~# puppet agent --test info: Retrieving plugin info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb info: Caching catalog for nagios.vm.april-int info: Applying configuration version '1367245531' notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]/hostgroups: defined 'hostgroups' as 'munin-node' info: FileBucket adding {md5}81d0b5ad79bf09797c290012623834c3 info: /Stage[main]/April_nagios::Server/Nagios_host[controller.vm.april-int]: Scheduling refresh of Service[nagios3] notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/Service[nagios3]: Triggered 'refresh' from 1 events notice: Finished catalog run in 5.02 seconds root@nagios:~# puppet agent -vt info: Retrieving plugin info: Loading facts in /var/lib/puppet/lib/facter/puppet_vardir.rb info: Loading facts in /var/lib/puppet/lib/facter/pe_version.rb info: Loading facts in /var/lib/puppet/lib/facter/concat_basedir.rb info: Loading facts in /var/lib/puppet/lib/facter/root_home.rb info: Caching catalog for nagios.vm.april-int info: Applying configuration version '1367245531' notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_project[check_cucumber_generate_www.april.org]/Exec[install-cucumber-project-www.april.org]/returns: executed successfully notice: /Stage[main]/April_nagios::Server/April_nagios::Check_cucumber_generate_spip[check_cucumber_generate_spip.libre-en-fete.org]/Exec[install-cucumber-project-spip-spip.libre-en-fete.org]/returns: executed successfully notice: Finished catalog run in 2.41 seconds root@nagios:~#
Updated by Quentin CHERGUI over 11 years ago
L'adresse IP n'a pas été mise à jour en relançant le puppet-agent...
Updated by Quentin CHERGUI over 11 years ago
L'adresse IP en question est dans le /etc/network/interfaces :
auto bond0 iface bond0 inet static address 192.168.25.117 netmask 255.255.255.0 gateway 192.168.25.253 slaves eth0 eth1 bond_mode active-backup bond_miimon 100 hwaddress ether 00:22:19:b2:00:c6 up ip addr add 192.168.2.254/16 dev eth0
Ajoutée manuellement :
root@pavot:~# ip addr add 192.168.2.254/16 dev eth0
Updated by Maxence Dunnewind over 11 years ago
Disques recus. Changement prévu demain, pas de coupure à prévoir. Si besoin d'annuler le changement, prévenir par sms.
Maxence
Updated by Loïc Dachary over 11 years ago
il faudrait que
up ip addr add 192.168.2.254/16 dev eth0
soit
up ip addr add 192.168.2.254/16 dev bond0
Updated by Loïc Dachary over 11 years ago
root@pavot:/etc# git show commit b5a3350064742d54afdd7ff8f2b2cba40f38a394 Author: root <root@april.org> Date: Sun Jun 2 10:38:58 2013 +0200 add the IP to bond0 so that it is not removed because eth0 is a slave of bond0 diff --git a/network/interfaces b/network/interfaces index 4f2515d..da0f424 100644 --- a/network/interfaces +++ b/network/interfaces @@ -14,7 +14,7 @@ iface bond0 inet static bond_mode active-backup bond_miimon 100 hwaddress ether 00:22:19:b2:00:c6 - up ip addr add 192.168.2.254/16 dev eth0 + up ip addr add 192.168.2.254/16 dev bond0 #auto dummy0 #iface dummy0 inet static
Updated by Loïc Dachary over 11 years ago
sp4rky a remplacé le disque
Updated by Loïc Dachary over 11 years ago
- Status changed from En cours de traitement to Fermé
- % Done changed from 90 to 100
Updated by Quentin CHERGUI over 11 years ago
Installation d'un serveur web sur le vserver munin. On y retrouve les mêmes graphes que sur celui de ns1 :
http://192.168.2.55:8080/munin/