Gestionnaire de projets de l'April: Demandeshttps://redmine.april.org/https://redmine.april.org/favicon.ico?15861920342013-05-25T10:07:11ZGestionnaire de projets de l'April
Redmine Admins - Anomalie #1282 (Fermé): disk fail sur pavot.april.orghttps://redmine.april.org/issues/12822013-05-25T10:07:11ZLoïc Dachary
<p>Back to normal <br /><img src="https://redmine.april.org/attachments/download/477/idrac.png" alt="" /></p>
<p>Done:</p>
<ul>
<li><del>mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013</del></li>
<li><del>acheter deux <a href="http://www.ldlc-pro.com/fiche/PB00126128.html" class="external">disque SATA de 1TB 3.5''</a> ( commande 30527125589V )</del> </li>
<li><del>demander a Maxence d'aller remplacer le disque au datacenter de Rennes</del></li>
<li><del>check nginx : OK (loic)</del></li>
<li><del>check bots : OK (loic)</del></li>
<li><del>check lamp : OK (loic)</del></li>
<li><del>check spamvir : OK (vx)</del></li>
<li><del>check mail : OK (vx)</del></li>
<li><del>check harmine : Semble ok (fred)</del></li>
<li><del>check amphetamine : OK (loic)</del></li>
<li><del>check ergine : Coupée (kankan)</del></li>
<li><del>check munin : OK, mêmes infos que sur ns1</del></li>
</ul>
<p><a href="http://localhost:8080/dokuwiki/doku.php?id=sysadm:machines_physiques:pavot" class="external">pavot</a> IDRAC dit dans l'event log:<br /><pre>
Critical 05/25/2013 08:07:23 Storage Drive 0:
Drive Slot sensor for Storage, drive fault was asserted
</pre><br /><a href="ftp://ftp.dell.com/Manuals/all-products/esuprt_ser_stor_net/esuprt_poweredge/poweredge-r300_Owner%27s%20Manual_en-us.pdf">poweredge-r300_Owner manual</a> dit que <br /><pre>
Drive failed Blinks amber four times per second.
</pre><br />La panne n'a pas été transparente, le syslog montre:<br /><pre>
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00
May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371
May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266
May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6
May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267
May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00
May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739
May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6.
May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called.
May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal
May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only
May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00
May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147
May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted
</pre></p> Admins - Anomalie #1125 (Fermé): ajouter un bot jenkins.april.orghttps://redmine.april.org/issues/11252012-12-17T23:17:49ZLoïc Dachary
<p>qui va sur #april-admin et qui permet de lancer le job puppetmaster</p> Admins - Anomalie #1109 (Rejeté): base gdtc inaccessiblehttps://redmine.april.org/issues/11092012-12-15T12:34:29ZLoïc Dachary
<p>(12:43:16 PM) <em>aeris</em>: dachary > base gdtc morte<br />(12:45:35 PM) <em>aeris</em>: restarted<br />(12:45:59 PM) <em>aeris</em>: tout est ok</p> Admins - Anomalie #1083 (Fermé): Modération sur april@https://redmine.april.org/issues/10832012-12-07T18:22:00ZLoïc Dachary
<p>Polux écrit: <a class="external" href="http://listes.april.org/wws/arc/admins/2012-12/msg00011.html">http://listes.april.org/wws/arc/admins/2012-12/msg00011.html</a></p>
<p>Je viens de modérer un message sur april@, à la demande de son<br />expéditeur.</p>
<p>C'est curieux. En théorie, la liste n'est pas modérée. Elle demande<br />confirmation par email pour les émetteurs non abonnés. C'est le sens du<br />scénario privateorpublickey qui est utilisé sur toutes nos ML de<br />discussion.</p>
<p>Ceci étant, pour la liste april@, nous utilisons un scénario différent<br />qui whiteliste des adresses alternatives que les membres renseignent<br />(parce qu'il sont abonnés via leur alias @april.org). C'est le scénario<br />privateorpublickey-april_dtc qui est dans etc/sympa/scenari/ sur<br />mail/pavot.</p>
<p>Et ce serait bien que la ML principale ne soit pas modérée,<br />car puisque les modérateurs ne sont pas censés modérer, ils ne suivent<br />pas nécessairement de près les notification. On risque donc de perdre<br />des courriers sur un point de contact en entrée de l'association.</p>
<p>Je suppose que la ligne fautive est la dernière du scénario.</p>
<p>Quelqu'un saurait il dire si c'est le cas ? Et si c'est le cas, quid de<br />l'apparition de cette ligne ? Le fichier n'est pas versionné. Je<br />suppose qu'il est généré, mais je ne sais pas où (ce serait peut être<br />pas mal de l'indiquer, d'ailleurs...).</p> Admins - Anomalie #1007 (Fermé): avertir de la fin de l'interruption de service sur pavothttps://redmine.april.org/issues/10072012-11-08T15:51:35ZLoïc Dachary
Répondre au mail <a class="issue tracker-2 status-5 priority-7 priority-highest closed child" title="Demande: avertir des interruptions de service dues au reboot de pavot (Fermé)" href="https://redmine.april.org/issues/1006">#1006</a> en annonçant que
<ul>
<li>l'interruption est terminée</li>
<li>les services sont revenus OU la liste des services qui ne sont pas revenus</li>
</ul> Admins - Demande #1006 (Fermé): avertir des interruptions de service dues au reboot de pavothttps://redmine.april.org/issues/10062012-11-08T15:49:30ZLoïc Dachary
<ul>
<li><del>preparer un brouillon de mail contenant</del>
<ul>
<li><del>le motif de l'intervention</del></li>
<li><del>la liste des services interrompus</del></li>
<li><del>la date / heure de l'intervention</del></li>
<li><del>la durée de l'intervention ( avec une marge)</del></li>
</ul>
</li>
<li><del>faire review le mail</del></li>
<li><del>envoyer le mail sur <a class="email" href="mailto:liste-infos@april.org">liste-infos@april.org</a></del></li>
</ul> Admins - Demande #1003 (Fermé): définiton d'un travail terminéhttps://redmine.april.org/issues/10032012-11-06T16:14:33ZLoïc Dachary
<p><a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:termine">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:termine</a></p>
<p>et lien ajouté dans</p>
<p><a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:start">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:start</a></p>
<p>dans le chapitre équipe</p> Admins - Demande #1001 (Fermé): ressources matérielles et humaines pour l'adminsyshttps://redmine.april.org/issues/10012012-11-06T09:48:57ZLoïc Dachary
<p>Etablir un inventaire des ressources nécessaires a l'execution de la mission de l'équipe admin sys et le présenter au product owner / fcouchet.</p>
<p>Voir le <a href="https://agir.april.org/projects/admins/wiki/Moyens" class="external">brouillon</a></p> Admins - Anomalie #999 (Rejeté): ns1 load average > 30https://redmine.april.org/issues/9992012-11-05T16:44:07ZLoïc Dachary
<p>Vers 4am le load average de NS1 s'envole</p>
<p><a class="external" href="http://127.0.0.1:8080/zabbix/tr_events.php?triggerid=13067&eventid=910">http://127.0.0.1:8080/zabbix/tr_events.php?triggerid=13067&eventid=910</a></p>
<p>est-ce récurrent ?</p> Admins - Anomalie #993 (Fermé): zabbix agent down sur ns1.april.orghttps://redmine.april.org/issues/9932012-11-04T10:38:43ZLoïc Dachary
<pre>
ns1:~# ps -faux | grep zabbix
Warning: bad ps syntax, perhaps a bogus '-'? See http://procps.sf.net/faq.html
root 3439 0.0 0.0 3148 776 pts/7 S+ 11:32 0:00 \_ grep --color zabbix
ns1:~# dpkg -l zabbix
Aucun paquet ne correspond à zabbix.
ns1:~# dpkg -l zabbix-agent
Souhait=inconnU/Installé/suppRimé/Purgé/H=à garder
| État=Non/Installé/fichier-Config/dépaqUeté/échec-conFig/H=semi-installé/W=attend-traitement-déclenchements
|/ Err?=(aucune)/H=à garder/besoin Réinstallation/X=les deux (État,Err: majuscule=mauvais)
||/ Nom Version Description
+++-=================-=================-==================================================
ii zabbix-agent 1:1.4.6-1 software for monitoring of your networks -- agent
ns1:~# tail /var/log/zabbix-agent/zabbix_agentd.log
zabbix_agentd.log zabbix_agentd.log.3.gz zabbix_agentd.log.6.gz
zabbix_agentd.log.1.gz zabbix_agentd.log.4.gz zabbix_agentd.log.7.gz
zabbix_agentd.log.2.gz zabbix_agentd.log.5.gz
ns1:~# tail /var/log/zabbix-agent/zabbix_agentd.log
ns1:~#
</pre> Admins - Anomalie #992 (Fermé): etckeeper cassé sur pavot.april.orghttps://redmine.april.org/issues/9922012-11-03T16:15:40ZLoïc Dachary
<p>root@pavot:/etc/init.d# git status<br />fatal: unable to create '.git/index.lock': File exists</p> Admins - Demande #985 (Fermé): valider la charte admin par le CAhttps://redmine.april.org/issues/9852012-11-03T12:06:43ZLoïc Dachary
<p>Proposer au CA la <a href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:charte" class="external">modification</a> de la <a href="http://wiki.april.org/w/CharteGroupeAdministrationSysteme" class="external">Charte Groupe Administration Systeme</a></p>
<p>La charte doit rester dans les généralité et définir un état d'esprit qui couvre les domaines essentiels, les valeurs auquel on adhère en faisant partie de l'équipe. Par exemple l'attitude a adopter face a un incident, la qualité du travail livré (definition of done) etc. Chaque principe peut etre associé à une HOWTO plus précise qui détaille le mode opératoire et qui peut changer plus fréquement.</p>
<p>Soumettre la version consolidée au CA avant finalisation pour commentaires éventuels</p> Admins - Demande #984 (Fermé): monitor openstack controllerhttps://redmine.april.org/issues/9842012-11-03T11:28:42ZLoïc Dachary
<p>ajouter un host zabbix pour surveiller le controller openstack qui est chargé d'établir la connection VPN<br />pour plus d'information sur le controller et l'installation openstack voir <a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:start">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:start</a></p> Admins - Demande #973 (Fermé): gestion centralisée des configurationshttps://redmine.april.org/issues/9732012-10-31T20:40:34ZLoïc DacharyAdmins - Demande #963 (Fermé): backup la machine de controlle openstack ( controller.vm.april-int )https://redmine.april.org/issues/9632012-10-31T11:32:05ZLoïc Dachary
<p>voir <a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:start">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:start</a> pour une description de la machine de controlle openstack</p>