Projet

Général

Profil

Anomalie #1051

ns1.april.org crash de 00:00 a 13:00

Ajouté par Loïc Dachary il y a plus de 11 ans. Mis à jour il y a presque 5 ans.

Statut:
Fermé
Priorité:
Immédiate
Assigné à:
Catégorie:
Task
Version cible:
Début:
27/11/2012
Echéance:
27/11/2012
% réalisé:

100%

Temps estimé:
Temps passé:
Difficulté:
3 Moyen

Description

Interruption de service de 00:00 a 13:00 le 27 novembre 2012 pour tous les services hébergés sur ns1.april.org http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:start

Crash kernel

crash

Préparation pour restauration (interrompue parceque finalement ns1 est revenue)

ssh root@yopo.april.org
root@bm0008:# lvcreate --name ns1 --size 600G vg
root@bm0008:# mkfs.ext4 /dev/vg/ns1
root@bm0008:# lvs
  LV     VG   Attr     LSize   Pool Origin Data%  Move Log Copy%  Convert
  ns1    vg   -wi-ao-- 600,00g                                           
ssh -t -A root@pavot.april.org vserver harmine enter
/usr/share/backuppc/bin/BackupPC_tarCreate -h ns1.april.org -n -1 -s /srv /vservers | ssh root@yopo.april.org "cd /mnt/ns1; tar -xf -" 
ssh root@yopo.april.org mkdir /mnt/ns1/srv
ssh root@yopo.april.org mv /mnt/ns1/vservers /mnt/ns1/srv
/usr/share/backuppc/bin/BackupPC_tarCreate -h ns1.april.org -n -1 -s / / | ssh root@yopo.april.org "cd /mnt/ns1; tar -xf -" 
for SHARE in usr var home ; do
 /usr/share/backuppc/bin/BackupPC_tarCreate -h ns1.april.org -n -1 -s /$SHARE / | ssh root@yopo.april.org "cd /mnt/ns1 ; mkdir $SHARE cd $SHARE ; tar -xf -" 
done

Fichiers

2012-11-27_12.45.59.jpg (143 ko) 2012-11-27_12.45.59.jpg crash Loïc Dachary, 27/11/2012 13:13

Demandes liées

Lié à Admins - Anomalie #1050: dupliquer le wiki adminRejeté27/11/2012

Actions
Lié à Admins - Anomalie #1034: migrer ns1.april.org vers d'autres machinesFermé01/04/201306/05/2013

Actions

Historique

#1

Mis à jour par Loïc Dachary il y a plus de 11 ans

To: <mailto:>

Bonjour,

La machine ns1.april.org n'est plus accessible. Comme la machine yopo.april.org répond encore, il s'agit probablement d'une panne. Est-ce que quelqu'un pourrait intervenir rapidement pour rebooter la machine ?

Merci par avance

#2

Mis à jour par Loïc Dachary il y a plus de 11 ans

yopo.april.org répond donc c'est pas le reseau chez free

#3

Mis à jour par theo _ il y a plus de 11 ans

Comme demandé sur irc, j'ai lancé un

/usr/share/backuppc/bin/BackupPC_tarCreate -h ns1.april.org -n -1 -s /srv /vservers | ssh root@yopo.april.org "cd /mnt/ns1; tar -xf -"

C'est le pid 24348.

Ne pas hésiter à le killer.

Mais il ne prend pas tant de bande passante que ça (il semble recalculer des choses régulièrement).

#4

Mis à jour par Loïc Dachary il y a plus de 11 ans

irc.freenode.net#april
(09:38:24 AM) madix: fyi, problème dans le data center qui héberge l'un de nos serveurs, www.april.org inaccessible entre autres, on est sur le coup
gazouilli
http://identi.ca/notice/98108686

#5

Mis à jour par Loïc Dachary il y a plus de 11 ans

La restauration se fait sur un volume de 600GB.

root@bm0008:# lvcreate --name ns1 --size 600G vg
root@bm0008:# mkfs.ext4 /dev/vg/ns1
root@bm0008:# lvs
  LV     VG   Attr     LSize   Pool Origin Data%  Move Log Copy%  Convert
  ns1    vg   -wi-ao-- 600,00g                                           

Je prépare une machine virtuelle de 8GB RAM qui boot sur le volume via OpenStack, dans le tenant April.

#6

Mis à jour par Loïc Dachary il y a plus de 11 ans

To:
Subject: Site web april.org indisponible
Bonjour,
Ce matin le serveur hébergeant le site web de l'April s'est arreté. C'est une machine assez ancienne et pour la redémarrer nous devons demander à quelqu'un d'intervenir sur place. La demande a été faite à 9h30 et nous sommes en attente. Dans l'intervalle nous préparons une solution de remplacement pour remonter le serveur à partir des sauvegardes de la veille, dans le cas ou la machine refuse de démarrer.
L'équipe d'administration système s'occupe du problème et vous pouvez suivre les progrès sur le ticket
https://agir.april.org/issues/1051
Nous rappelons que depuis sa création le système d'information de l'April est administré par des bénévoles. Si vous avez des compétences d'administration système et que vous souhaitez donner un coup de main, vous êtes chaleureusement invités à vous faire connaitre sur irc.freenode.net#april-admins
Cordialement

#7

Mis à jour par Loïc Dachary il y a plus de 11 ans

Un opérateur a été contacté par téléphone et s'occupe de tenter de redémarrer la machine d'ici une ou deux heures.

#8

Mis à jour par Loïc Dachary il y a plus de 11 ans

pavot.april.org:/etc/backuppc/ns1.april.org.pl

$Conf{RsyncShareName} = [ '/', '/usr', '/var', '/home', '/srv' ];

$Conf{BackupFilesExclude} = {
  '/' => [ '/dev', '/cdrom', '/media', '/floppy', '/mnt', '/lost+found', '/tmp' ],
  '/var' => [ '/tmp', '/cache', '/lib/backuppc' ],
  '/srv' => [ '/vservers/mescaline/var/www/media.april.org' ],
};

$Conf{DumpPreUserCmd} = '$sshPath -q -x -C -o BatchMode=yes -l backuppcnode $host sudo /usr/bin/nice -n 19 /usr/bin/ionice -c3 /home/backuppcnode/backup/backup.sh backup.cf';

#$Conf{BackupsDisable} = 2;

Ou est sauvegardé /vservers/mescaline/var/www/media.april.org ?

#9

Mis à jour par Loïc Dachary il y a plus de 11 ans

ns1 rebooté avec succès vers 12h50

#10

Mis à jour par Loïc Dachary il y a plus de 11 ans

vérification manuelle des services, dokuwiki est down parceque

ns1:/etc/vservers# echo default > dokuwiki/apps/init/mark

relance a la main

ns1:/etc/vservers# vserver dokuwiki start 
Starting system log daemon....
Starting OpenBSD Secure Shell server: sshd.
Not starting internet superserver: no services enabled.
Starting Postfix Mail Transport Agent: postfix.
Starting periodic command scheduler: cron.
Starting web server: apache2.

#11

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Fichier 2012-11-27_12.45.59.jpg ajouté

copie de l'ecran de crash

#12

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Fichier 2012-11-27_12.45.59.jpg supprimé
#13

Mis à jour par Loïc Dachary il y a plus de 11 ans

smaller

#14

Mis à jour par Loïc Dachary il y a plus de 11 ans

dns2

dns2:/# dig @127.0.0.1 april.org

; <<>> DiG 9.7.3 <<>> @127.0.0.1 april.org
; (1 server found)
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 37531
;; flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 2, ADDITIONAL: 2

;; QUESTION SECTION:
;april.org.            IN    A

;; ANSWER SECTION:
april.org.        86400    IN    A    88.191.250.4

;; AUTHORITY SECTION:
april.org.        86400    IN    NS    pavot.april.org.
april.org.        86400    IN    NS    ns1.april.org.

;; ADDITIONAL SECTION:
ns1.april.org.        88844    IN    A    88.191.250.4
pavot.april.org.    88845    IN    A    86.65.39.24

;; Query time: 8 msec
;; SERVER: 127.0.0.1#53(127.0.0.1)
;; WHEN: Tue Nov 27 13:15:33 2012
;; MSG SIZE  rcvd: 113

#15

Mis à jour par Loïc Dachary il y a plus de 11 ans

Analyse de l'écran de crash

[13:17] <theo_taf> Quelqu'un sait si on peut tirer des informations de http://i.imgur.com/EQDx4.jpg (autres que juste "c'est un kernel panic") ?
[13:18] <Dinde> ça sent le FS qui a chié
[13:19] <nodens> ou le controleur de disque
[13:19] <FabriceB> il est mort sur un waitpid
[13:19] <FabriceB> il attends un lock sur un process
[13:19] <FabriceB> pas sur une IO
[13:20] <asyd> theo_taf: probleme de carte reseau (si spkt c'est bien un driver reseau, mais ca y ressemble)
[13:20] <beorn_> je pense comme FabriceB dead lock
[13:20] <beorn_> et bnx
[13:20] <beorn_> tu as ta reponse
[13:20] <beorn_> :)
[13:20] <FabriceB> asyd: il a reçu un paquet
[13:21] <FabriceB> il a voulu réveiller un fils
[13:21] <FabriceB> c'est un apache
[13:21] <asyd> hmm ok c'est dans ce sens
[13:21] <asyd> ca m'apprendra a me taire
[13:21] <FabriceB> pui c'est le read_lock qui a coincé
[13:21] <FabriceB> trop de process ?
[13:23] <theo_taf> FabriceB: au moment du plantage, on n'avais pas plus de process ou un fork rate plus élevé que d'habitude.

#16

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Echéance mis à 27/11/2012
#17

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Statut changé de En cours de traitement à Résolu
  • % réalisé changé de 0 à 100
#18

Mis à jour par Loïc Dachary il y a plus de 11 ans

ssh -t -A vserver relay enter

relay:/# tail -f /var/log/postfix/mail.info
Nov 27 14:33:52 relay postfix/smtpd[12798]: connect from lsd.april-int[192.168.1.42]
Nov 27 14:33:52 relay postfix/smtpd[12798]: 9AA5060C095: client=lsd.april-int[192.168.1.42]
Nov 27 14:33:52 relay postfix/cleanup[12802]: 9AA5060C095: message-id=<20121127133352.8DFDC121453@ns1.april.org>
Nov 27 14:33:52 relay postfix/smtpd[12798]: disconnect from lsd.april-int[192.168.1.42]
Nov 27 14:33:52 relay postfix/qmgr[13450]: 9AA5060C095: from=<root@april.org>, size=496, nrcpt=1 (queue active)
Nov 27 14:33:52 relay postfix/smtp[12803]: 9AA5060C095: to=<loic@dachary.org>, relay=pavot.april.org[86.65.39.24]:25, delay=0.1, delays=0.06/0/0.02/0.02, dsn=2.0.0, status=sent (250 2.0.0 Ok: queued as B1E3F153003F)
Nov 27 14:33:52 relay postfix/qmgr[13450]: 9AA5060C095: removed

#19

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Sujet changé de ns1.april.org down à ns1.april.org crash de 00:00 a 13:00
#20

Mis à jour par Loïc Dachary il y a plus de 11 ans

Le site web april.org est de nouveau disponible, ainsi que les autres services hébergés sur la machine. Aucune donnée n'a été perdue, il a suffit d'un re-démarrage. L'origine de la panne était un kernel panic dont la capture écran a été ajouté au ticket https://agir.april.org/issues/1051 pour les plus curieux ;-)
Nos excuses pour cette interruption de service

#21

Mis à jour par Quentin Gibeaux il y a presque 5 ans

  • Statut changé de Résolu à Fermé

Formats disponibles : Atom PDF