Gestionnaire de projets de l'April: Demandeshttps://redmine.april.org/https://redmine.april.org/favicon.ico?15861920342021-07-15T16:29:20ZGestionnaire de projets de l'April
Redmine forge.chapril.org - Tâche récurrente #5471 (Fermé): Modération des compteshttps://redmine.april.org/issues/54712021-07-15T16:29:20ZLoïc Dachary
<ul>
<li><a class="external" href="https://forge.chapril.org/admin/users?sort=newest&q=">https://forge.chapril.org/admin/users?sort=newest&q=</a></li>
<li>Examiner tous les comptes créés depuis la dernière opération de modération</li>
</ul> Galerie photos - Anomalie #3878 (Fermé): création de compte casséehttps://redmine.april.org/issues/38782019-09-19T08:43:27ZLoïc Dachary
<ul>
<li><a class="external" href="https://photos.april.org/register.php">https://photos.april.org/register.php</a></li>
<li>Remplir les champs et cliquer "Enregistrer" </li>
<li>Fatal error: Uncaught Error: Call to undefined function mb_convert_encoding() in /var/www/photos.april.org/piwigo/include/emogrifier.class.php:434 quand je click sur register</li>
</ul>
<p>Il est ensuite possible de se connecter avec l'utilisateur / mot de passe: le compte a bien été crée</p> Admins - Anomalie #1331 (Fermé): amphetamine oom killerhttps://redmine.april.org/issues/13312013-07-20T07:22:46ZLoïc Dachary
<p>Alerte nagios sur oomkiller et port 22 down sur amphetamine.</p>
<pre>
loic@fold:~$ ssh -t -A root@pavot.april.org vserver amphetamine enter # redmine
root@amphetamine:/# netstat -tlpn
Connexions Internet actives (seulement serveurs)
Proto Recv-Q Send-Q Adresse locale Adresse distante Etat PID/Program name
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 18733/apache2
tcp 0 0 0.0.0.0:4949 0.0.0.0:* LISTEN 686/munin-node
tcp 0 0 127.0.0.1:5432 0.0.0.0:* LISTEN 32059/postgres
tcp 0 0 0.0.0.0:25 0.0.0.0:* LISTEN 485/master
root@amphetamine:/# /etc/init.d/ssh start
Starting OpenBSD Secure Shell server: sshd.
root@amphetamine:/#
</pre><br /><pre>
root@pavot:~# cat /tmp/nagios_oom_killer
Jul 20 02:08:47 pavot kernel: [19115296.835995] Out of memory: kill process sshd(545:#32) score 150000 or a child
Jul 20 02:08:47 pavot kernel: [19115296.951388] Out of memory: kill process sshd(545:#32) score 150000 or a child
Jul 20 02:09:06 pavot kernel: [19115316.368067] Out of memory: kill process sshd(545:#32) score 150005 or a child
root@pavot:~# vserver-stat | grep '^32'
32 180 2.1G 195.2M 8d11h43 9h28m27 55d21h32 amphetamine
</pre> Admins - Anomalie #1282 (Fermé): disk fail sur pavot.april.orghttps://redmine.april.org/issues/12822013-05-25T10:07:11ZLoïc Dachary
<p>Back to normal <br /><img src="https://redmine.april.org/attachments/download/477/idrac.png" alt="" /></p>
<p>Done:</p>
<ul>
<li><del>mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013</del></li>
<li><del>acheter deux <a href="http://www.ldlc-pro.com/fiche/PB00126128.html" class="external">disque SATA de 1TB 3.5''</a> ( commande 30527125589V )</del> </li>
<li><del>demander a Maxence d'aller remplacer le disque au datacenter de Rennes</del></li>
<li><del>check nginx : OK (loic)</del></li>
<li><del>check bots : OK (loic)</del></li>
<li><del>check lamp : OK (loic)</del></li>
<li><del>check spamvir : OK (vx)</del></li>
<li><del>check mail : OK (vx)</del></li>
<li><del>check harmine : Semble ok (fred)</del></li>
<li><del>check amphetamine : OK (loic)</del></li>
<li><del>check ergine : Coupée (kankan)</del></li>
<li><del>check munin : OK, mêmes infos que sur ns1</del></li>
</ul>
<p><a href="http://localhost:8080/dokuwiki/doku.php?id=sysadm:machines_physiques:pavot" class="external">pavot</a> IDRAC dit dans l'event log:<br /><pre>
Critical 05/25/2013 08:07:23 Storage Drive 0:
Drive Slot sensor for Storage, drive fault was asserted
</pre><br /><a href="ftp://ftp.dell.com/Manuals/all-products/esuprt_ser_stor_net/esuprt_poweredge/poweredge-r300_Owner%27s%20Manual_en-us.pdf">poweredge-r300_Owner manual</a> dit que <br /><pre>
Drive failed Blinks amber four times per second.
</pre><br />La panne n'a pas été transparente, le syslog montre:<br /><pre>
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00
May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371
May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266
May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6
May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267
May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00
May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739
May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6.
May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called.
May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal
May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only
May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00
May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147
May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted
</pre></p> Admins - Anomalie #1179 (Fermé): agir.april.org out of memoryhttps://redmine.april.org/issues/11792013-01-31T08:27:56ZLoïc Dachary
<p>Un process redmine tourne en boucle et occupe toute la RAM disponible, provoquant des OOM qui impactent le vserver host ( problème déjà identifié dans le passé ) qui a pour conséquence la perte d'interface pour un certain nombre de serveurs. Le cloisonement n'est pas ce que l'on pourrait espérer.</p>
<p><img src="https://redmine.april.org/attachments/download/446/oom.png" title="oom" alt="oom" /></p>
<p>Corrections:</p>
<ul>
<li>Restart les vservers ayant perdu leur IP dans cet ordre : dns, nginx, lamp, mail, spamvir, harmine</li>
<li>Ajoute une limite haute a la RAM que peut prendre un processus sur la machine redmine pour que le processus fou qui mange toute la RAM soit tué avant de faire des dégats : ulimit -v 1048576</li>
</ul> Admins - Anomalie #1169 (Fermé): backup de controller.vm.april-int stuckhttps://redmine.april.org/issues/11692013-01-04T15:55:51ZLoïc Dachary
<p>10 heures après le début de la sauvegarde le process est encore en route<br /><pre>
root@harmine:/# ps -fuawxw | grep contro
backuppc 32080 0.0 0.0 73848 18264 ? S 02:00 0:00 \_ /usr/bin/perl /usr/share/backuppc/bin/BackupPC_dump controller.vm.april-int
backuppc 32118 0.0 0.0 40572 2960 ? S 02:00 0:00 \_ /usr/bin/ssh -q -i /var/lib/backuppc/.ssh/abackup -o UserKnownHostsFile=/dev/null -o StrictHostKeyChecking=false -x -l abackup controller.vm.april-int /var/local/abackup/rsync_sender --server --sender --numeric-ids --perms --owner --group -D --links --hard-links --times --block-size=2048 --recursive --checksum-seed=32761 --one-file-system --bwlimit=2560 . /
</pre><br />via <a class="external" href="https://backuppc.april.org/cgi-bin/index.cgi?host=controller.vm.april-int">https://backuppc.april.org/cgi-bin/index.cgi?host=controller.vm.april-int</a> le backup est interrompu et redémaré en séquentiel, il réussit:<br /><pre>
root@harmine:/# tail -f /var/lib/backuppc/pc/controller.vm.april-int/LOG.012013
13-01-04 02:00:01 incr backup started back to 2013-01-03 02:00:01 (backup #20) for directory /
2013-01-04 16:50:16 Aborting backup up after signal INT
2013-01-04 16:50:17 Got fatal error during xfer (fileListReceive failed)
2013-01-04 16:50:29 incr backup started back to 2013-01-03 02:00:01 (backup #20) for directory /
2013-01-04 16:51:31 incr backup 21 complete, 30 files, 3305102 bytes, 0 xferErrs (0 bad files, 0 bad shares, 0 other)
</pre></p> Admins - Anomalie #1125 (Fermé): ajouter un bot jenkins.april.orghttps://redmine.april.org/issues/11252012-12-17T23:17:49ZLoïc Dachary
<p>qui va sur #april-admin et qui permet de lancer le job puppetmaster</p> Admins - Anomalie #1118 (Fermé): /tmp sur le vserver lamp sur pavot.april.org a 16Mhttps://redmine.april.org/issues/11182012-12-17T09:12:54ZLoïc Dachary
<p>il faut changer le mapping dans /etc/vservers<br />ça peut provoquer des blocages génants si le moindre processus a besoin d'un peu de place dans /tmp</p> Admins - Anomalie #1116 (Fermé): configurer le mail de nagioshttps://redmine.april.org/issues/11162012-12-16T21:36:18ZLoïc Dachary
<p>pour qu'il utilise le relay au lieu de partir directement sous un nom de domaine fake. Sinon les mails tombent dans le spam et c'est pas tres utile.</p> Admins - Anomalie #1115 (Fermé): controller.vm.april-int openvpn est tombéhttps://redmine.april.org/issues/11152012-12-16T17:02:03ZLoïc Dachary
<p>openvpn ne fonctionne plus sur controller.vm.april-int. Il est relancé. Un effet de bord est que toutes les instances openstack ne ping plus 192.168.0.0/16. Sur nagios.vm.april-int par exemple:<br /><pre>
root@nagios:~# ip r
default via 10.145.4.4 dev eth0
10.145.4.0/24 dev eth0 proto kernel scope link src 10.145.4.9
192.168.0.0/16 via 192.168.4.1 dev eth0 src 192.168.4.5
192.168.4.0/24 dev eth0 proto kernel scope link src 192.168.4.5
root@nagios:~# ip a
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 16436 qdisc noqueue state UNKNOWN
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc pfifo_fast state UP qlen 1000
link/ether fa:16:3e:1a:bb:7b brd ff:ff:ff:ff:ff:ff
inet 10.145.4.9/24 brd 10.145.4.255 scope global eth0
inet 192.168.4.5/24 scope global eth0
inet6 fe80::f816:3eff:fe1a:bb7b/64 scope link tentative dadfailed
valid_lft forever preferred_lft forever
</pre><br />malgré tout c'est <strong>10.145.4.4</strong> qui est utilisé pour router <strong>192.168.2.12</strong> au lieu de <strong>192.168.4.1</strong><br /><pre>
root@nagios:~# ip r get 192.168.2.12
192.168.2.12 via 10.145.4.4 dev eth0 src 192.168.4.5
cache <redirected> ipid 0x8c6f
</pre><br />ce qui est <strong>probablement</strong> un effet de bord du fait que la route vers <strong>192.168.2.12</strong> a échoué pendant la panne du VPN et que la route par défaut a été utilisée a la place. Pour rétablir la situation il suffit de flusher le cache:<br /><pre>
root@nagios:~# ip r flush cache
root@nagios:~# ip r get 192.168.2.12 from 192.168.4.5
192.168.2.12 from 192.168.4.5 via 192.168.4.1 dev eth0
cache ipid 0x8c6f
</pre></p> Admins - Anomalie #1109 (Rejeté): base gdtc inaccessiblehttps://redmine.april.org/issues/11092012-12-15T12:34:29ZLoïc Dachary
<p>(12:43:16 PM) <em>aeris</em>: dachary > base gdtc morte<br />(12:45:35 PM) <em>aeris</em>: restarted<br />(12:45:59 PM) <em>aeris</em>: tout est ok</p> Admins - Anomalie #1090 (Fermé): classe puppet pour oomkillerhttps://redmine.april.org/issues/10902012-12-10T20:42:49ZLoïc Dachary
<p>a activer dans pavot.april.org et ns1.april.org qui sont des victimes potentielles<br /><a class="external" href="http://exchange.nagios.org/directory/Addons/Others/check_oomkiller/details">http://exchange.nagios.org/directory/Addons/Others/check_oomkiller/details</a></p> Admins - Anomalie #1085 (Fermé): crash mysql sur lsd : www.april.org downhttps://redmine.april.org/issues/10852012-12-10T08:36:41ZLoïc Dachary
<p>Symptome: la page de garde dit que le serveur mysql est cassé<br />Cause: il n'y a plus assez de mémoire disponible. Ce n'est pas du a une consomation excessive mais plutot a une quantité de RAM insuffisante ( 800MB ).<br />Fix: augmenter la RAM pour mettre 3GB. Le host ns1 a suffisament de RAM pour ça : il y a 5GB dans le cache.<br />Ajouter une remonté d'alerte nagios via munin : ça avertit des congestions de ressources.</p>
<p>On voit un pic de consomation mémoire:<br />Interruption de service entre 4:00 et 8:10 le 10 décembre 2012.<br /><img src="https://redmine.april.org/attachments/download/397/vserver_rss-day.png" title="vserver_rss-day" alt="vserver_rss-day" /><br />Interruption de service entre 12:00 et 14:00 le 15 décembre 2012.<br /><img src="https://redmine.april.org/attachments/download/402/vserver_rss-day-2012-12-15.png" title="vserver_rss-day 15 decembre 2012" alt="vserver_rss-day 15 decembre 2012" /><br />Bien que rien n'apparaisse dans les logs mysql, les logs apache montrent dans le même temps:<br /><pre>
[Mon Dec 10 04:42:23 2012] [error] (12)Cannot allocate memory: fork: Unable to fork new process
</pre></p>
TODO:
<ul>
<li><del>drupal a une sorte de crontab interne. Peut-etre qu'il décide de faire qqc a 4:00 ?</del></li>
<li><del>followup <a href="http://listes.april.org/wws/arc/admins/2012-12/msg00015.html" class="external">thread avec mongolito404 sur les cron drupal</a></del></li>
<li>ajouter une alerte nagios</li>
</ul> Admins - Anomalie #1021 (Rejeté): conflit de zones master pour april-inthttps://redmine.april.org/issues/10212012-11-14T09:43:32ZLoïc Dachary
<a name="Recommendations"></a>
<h1 >Recommendations<a href="#Recommendations" class="wiki-anchor">¶</a></h1>
<p>Utiliser les zones lan.april-int ou vm.april-int à la place.</p>
<a name="Descripition"></a>
<h1 >Descripition<a href="#Descripition" class="wiki-anchor">¶</a></h1>
<p>La zone april-int est en master sur deux serveurs distincts, d'ou conflit de mise à jour. Il est dit dans la <a href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:ns1:dns2" class="external">documentation</a> que le serveur DNS de NS1 est primaire pour la zone april-int donc il ne devrait pas être primaire sur le <a href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:dns" class="external">server DNS de pavot</a></p>
<p>lamp.april-int sur ns1 n'a pas la même IP que lamp.april-int sur pavot. C'est la même chose pour plusieurs autres noms de domaine.</p>
<a name="Merge-des-zones"></a>
<h1 >Merge des zones<a href="#Merge-des-zones" class="wiki-anchor">¶</a></h1>
<pre>
amphetamine IN A 192.168.2.32
bots IN A 192.168.2.11
candidatsbe IN A 192.168.1.19
chef IN A 192.168.1.13
controller IN A 192.168.4.1
dns2 IN A 192.168.1.12
dns IN A 192.168.2.12
dokuwiki IN A 192.168.1.33
ephedrine IN A 192.168.1.50
ergoline IN A 192.168.1.16
harmine IN A 192.168.1.22
harmine IN A 192.168.2.22
jenkins IN A 192.168.4.3
lamp IN A 192.168.1.15
lamp IN A 192.168.2.15
libreassociation IN A 192.168.1.23
lsd IN A 192.168.1.42
mail IN A 192.168.2.17
mescaline IN A 192.168.1.21
muscarine IN A 192.168.1.69
nginx IN A 192.168.1.10
nginx IN A 192.168.2.10
npavot IN A 86.65.39.24
ns1 IN A 88.191.250.4
ns2 IN A 88.191.250.11
pavot IN A 86.65.39.24
puppetmaster IN A 192.168.4.2
relay IN A 192.168.1.11
spamvir IN A 192.168.1.14
spamvir IN A 192.168.2.16
template-squeeze IN A 192.168.1.200
template-squeeze IN A 192.168.2.200
thc IN A 192.168.1.24
</pre>
<a name="Références"></a>
<h1 >Références<a href="#Références" class="wiki-anchor">¶</a></h1>
<ul>
<li><a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:fonctions:ns_primaire">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:fonctions:ns_primaire</a></li>
<li><a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:ns1:dns2">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:ns1:dns2</a></li>
<li><a class="external" href="http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:dns">http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:dns</a></li>
</ul> Admins - Anomalie #1007 (Fermé): avertir de la fin de l'interruption de service sur pavothttps://redmine.april.org/issues/10072012-11-08T15:51:35ZLoïc Dachary
Répondre au mail <a class="issue tracker-2 status-5 priority-7 priority-highest closed child" title="Demande: avertir des interruptions de service dues au reboot de pavot (Fermé)" href="https://redmine.april.org/issues/1006">#1006</a> en annonçant que
<ul>
<li>l'interruption est terminée</li>
<li>les services sont revenus OU la liste des services qui ne sont pas revenus</li>
</ul>