Gestionnaire de projets de l'April: Demandeshttps://redmine.april.org/https://redmine.april.org/favicon.ico?15861920342019-09-19T08:43:27ZGestionnaire de projets de l'April
Redmine Galerie photos - Anomalie #3878 (Fermé): création de compte casséehttps://redmine.april.org/issues/38782019-09-19T08:43:27ZLoïc Dachary
<ul>
<li><a class="external" href="https://photos.april.org/register.php">https://photos.april.org/register.php</a></li>
<li>Remplir les champs et cliquer "Enregistrer" </li>
<li>Fatal error: Uncaught Error: Call to undefined function mb_convert_encoding() in /var/www/photos.april.org/piwigo/include/emogrifier.class.php:434 quand je click sur register</li>
</ul>
<p>Il est ensuite possible de se connecter avec l'utilisateur / mot de passe: le compte a bien été crée</p> Admins - Anomalie #1331 (Fermé): amphetamine oom killerhttps://redmine.april.org/issues/13312013-07-20T07:22:46ZLoïc Dachary
<p>Alerte nagios sur oomkiller et port 22 down sur amphetamine.</p>
<pre>
loic@fold:~$ ssh -t -A root@pavot.april.org vserver amphetamine enter # redmine
root@amphetamine:/# netstat -tlpn
Connexions Internet actives (seulement serveurs)
Proto Recv-Q Send-Q Adresse locale Adresse distante Etat PID/Program name
tcp 0 0 0.0.0.0:80 0.0.0.0:* LISTEN 18733/apache2
tcp 0 0 0.0.0.0:4949 0.0.0.0:* LISTEN 686/munin-node
tcp 0 0 127.0.0.1:5432 0.0.0.0:* LISTEN 32059/postgres
tcp 0 0 0.0.0.0:25 0.0.0.0:* LISTEN 485/master
root@amphetamine:/# /etc/init.d/ssh start
Starting OpenBSD Secure Shell server: sshd.
root@amphetamine:/#
</pre><br /><pre>
root@pavot:~# cat /tmp/nagios_oom_killer
Jul 20 02:08:47 pavot kernel: [19115296.835995] Out of memory: kill process sshd(545:#32) score 150000 or a child
Jul 20 02:08:47 pavot kernel: [19115296.951388] Out of memory: kill process sshd(545:#32) score 150000 or a child
Jul 20 02:09:06 pavot kernel: [19115316.368067] Out of memory: kill process sshd(545:#32) score 150005 or a child
root@pavot:~# vserver-stat | grep '^32'
32 180 2.1G 195.2M 8d11h43 9h28m27 55d21h32 amphetamine
</pre> Admins - Anomalie #1282 (Fermé): disk fail sur pavot.april.orghttps://redmine.april.org/issues/12822013-05-25T10:07:11ZLoïc Dachary
<p>Back to normal <br /><img src="https://redmine.april.org/attachments/download/477/idrac.png" alt="" /></p>
<p>Done:</p>
<ul>
<li><del>mail pour prévenir de l'interruption de service entre 7am et 11h30 25 mai 2013</del></li>
<li><del>acheter deux <a href="http://www.ldlc-pro.com/fiche/PB00126128.html" class="external">disque SATA de 1TB 3.5''</a> ( commande 30527125589V )</del> </li>
<li><del>demander a Maxence d'aller remplacer le disque au datacenter de Rennes</del></li>
<li><del>check nginx : OK (loic)</del></li>
<li><del>check bots : OK (loic)</del></li>
<li><del>check lamp : OK (loic)</del></li>
<li><del>check spamvir : OK (vx)</del></li>
<li><del>check mail : OK (vx)</del></li>
<li><del>check harmine : Semble ok (fred)</del></li>
<li><del>check amphetamine : OK (loic)</del></li>
<li><del>check ergine : Coupée (kankan)</del></li>
<li><del>check munin : OK, mêmes infos que sur ns1</del></li>
</ul>
<p><a href="http://localhost:8080/dokuwiki/doku.php?id=sysadm:machines_physiques:pavot" class="external">pavot</a> IDRAC dit dans l'event log:<br /><pre>
Critical 05/25/2013 08:07:23 Storage Drive 0:
Drive Slot sensor for Storage, drive fault was asserted
</pre><br /><a href="ftp://ftp.dell.com/Manuals/all-products/esuprt_ser_stor_net/esuprt_poweredge/poweredge-r300_Owner%27s%20Manual_en-us.pdf">poweredge-r300_Owner manual</a> dit que <br /><pre>
Drive failed Blinks amber four times per second.
</pre><br />La panne n'a pas été transparente, le syslog montre:<br /><pre>
May 25 07:05:40 pavot kernel: [14294710.788020] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:40 pavot kernel: [14294710.788051] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:40 pavot kernel: [14294710.788097] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:40 pavot kernel: [14294710.788132] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:40 pavot kernel: [14294710.788167] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 53 e6 c7 db 00 01 40 00
May 25 07:05:40 pavot kernel: [14294710.788234] end_request: I/O error, dev sda, sector 1407633371
May 25 07:05:40 pavot kernel: [14294710.788264] Buffer I/O error on device sda6, logical block 174002266
May 25 07:05:40 pavot kernel: [14294710.788293] lost page write due to I/O error on sda6
May 25 07:05:40 pavot kernel: [14294710.788321] Buffer I/O error on device sda6, logical block 174002267
May 25 07:05:41 pavot kernel: [14294711.632846] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.632879] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.632910] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a5 2d fb 00 01 40 00
May 25 07:05:41 pavot kernel: [14294711.632976] end_request: I/O error, dev sda, sector 983903739
May 25 07:05:41 pavot kernel: [14294711.634546] Aborting journal on device sda6.
May 25 07:05:41 pavot kernel: [14294711.640726] ext3_abort called.
May 25 07:05:41 pavot kernel: [14294711.640754] EXT3-fs error (device sda6): ext3_journal_start_sb: Detected aborted journal
May 25 07:05:41 pavot kernel: [14294711.640803] Remounting filesystem read-only
May 25 07:05:41 pavot kernel: [14294711.666584] sd 4:1:0:0: [sda] Unhandled sense code
May 25 07:05:41 pavot kernel: [14294711.666612] sd 4:1:0:0: [sda] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
May 25 07:05:41 pavot kernel: [14294711.666672] sd 4:1:0:0: [sda] Sense Key : Hardware Error [current]
May 25 07:05:41 pavot kernel: [14294711.666705] sd 4:1:0:0: [sda] Add. Sense: Internal target failure
May 25 07:05:41 pavot kernel: [14294711.666741] sd 4:1:0:0: [sda] CDB: Write(10): 2a 00 3a a2 55 1b 00 00 08 00
May 25 07:05:41 pavot kernel: [14294711.666813] end_request: I/O error, dev sda, sector 983717147
May 25 07:05:41 pavot kernel: [14294711.695949] EXT3-fs error (device sda6) in ext3_reserve_inode_write: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.695996] EXT3-fs error (device sda6) in ext3_new_inode: Journal has aborted
May 25 07:05:41 pavot kernel: [14294711.696056] EXT3-fs error (device sda6) in start_transaction: Journal has aborted
</pre></p> Admins - Anomalie #1277 (Fermé): psilocybine.april.org disk failhttps://redmine.april.org/issues/12772013-05-11T14:06:56ZLoïc Dachary
<p>TODO:</p>
<ul>
<li><del>evacutation de ci.april.org vers une machine temporairement empruntée au cluster the.re</del></li>
<li><del>ouverture d'un ticket OVH pour remplacement du disque</del></li>
</ul>
<pre>
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }
ata1.00: configured for UDMA/133
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000008
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:00:f8:41:73/00:00:0b:00:00/40 tag 0 ncq 4096 in
res 41/40:08:f8:41:73/00:00:0b:00:00/00 Emask 0x409 (media error) <F>
</pre> Admins - Anomalie #1234 (Fermé): oom killer sur pavothttps://redmine.april.org/issues/12342013-03-16T14:12:12ZLoïc Dachary
<pre>
root@pavot:~# cat /tmp/nagios_oom_killer
Mar 14 15:45:10 pavot kernel: [8108680.683330] Out of memory: kill process sshd(13460:#17) score 400000 or a child
Mar 14 15:45:10 pavot kernel: [8108680.796552] Out of memory: kill process sshd(13460:#17) score 400000 or a child
Mar 14 15:45:10 pavot kernel: [8108680.912241] Out of memory: kill process sshd(13460:#17) score 400000 or a child
Mar 14 15:45:10 pavot kernel: [8108681.026267] Out of memory: kill process sshd(4353:#17) score 400000 or a child
Mar 14 15:45:10 pavot kernel: [8108681.153197] Out of memory: kill process sshd(23300:#17) score 400000 or a child
Mar 16 11:46:47 pavot kernel: [8267177.677753] Out of memory: kill process sshd(4428:#32) score 150011 or a child
</pre><br /><img src="https://redmine.april.org/attachments/download/456/cpu-week.png" title="cpu week pavot" alt="cpu week pavot" /> Admins - Anomalie #1179 (Fermé): agir.april.org out of memoryhttps://redmine.april.org/issues/11792013-01-31T08:27:56ZLoïc Dachary
<p>Un process redmine tourne en boucle et occupe toute la RAM disponible, provoquant des OOM qui impactent le vserver host ( problème déjà identifié dans le passé ) qui a pour conséquence la perte d'interface pour un certain nombre de serveurs. Le cloisonement n'est pas ce que l'on pourrait espérer.</p>
<p><img src="https://redmine.april.org/attachments/download/446/oom.png" title="oom" alt="oom" /></p>
<p>Corrections:</p>
<ul>
<li>Restart les vservers ayant perdu leur IP dans cet ordre : dns, nginx, lamp, mail, spamvir, harmine</li>
<li>Ajoute une limite haute a la RAM que peut prendre un processus sur la machine redmine pour que le processus fou qui mange toute la RAM soit tué avant de faire des dégats : ulimit -v 1048576</li>
</ul> Admins - Anomalie #1178 (Fermé): surveiller la consomation CPU de agir.april.orghttps://redmine.april.org/issues/11782013-01-27T12:14:59ZLoïc DacharyAdmins - Anomalie #1176 (Fermé): redmine est a 100% de CPU depuis plusieurs heureshttps://redmine.april.org/issues/11762013-01-27T09:30:59ZLoïc Dachary
<p>Hypothèse : il y a une URL dans redmine qui provoque un bug qui conduit à une boucle d'allocation infinie:</p>
<pre>
# strace -p 29712
Process 29712 attached - interrupt to quit
brk(0x505e9000) = 0x505e9000
brk(0x505e7000) = 0x505e7000
brk(0x50608000) = 0x50608000
brk(0x50606000) = 0x50606000
...
</pre>
<p>et donc un process qui utilise de plus en plus de RAM et 100% d'un CPU.</p>
<pre>
ssh -t -A root@pavot.april.org vserver amphetamine enter # redmine
29712 www-data 20 0 1047m 882m 2692 R 101 3.7 242:44.56 Rails: /usr/share/redmine
</pre>
<p>C'est arrivé au moment ou google a décidé de crawl tout le site. Il parait difficile de trouver quelle requete exactement a déclenché ce comportement. Les logs ne montrent pas d'erreurs portant sur une requete ayant duré plusieurs heures:</p>
<pre>
grep '^Completed' /var/log/redmine/default/production.log | grep -v '200 OK'
</pre>
<p>et la granularité de munin ne permet pas de situer l'apparition du comportement de façon précise : il y a des centaines de requetes qui ont été faites entre 6am et 7am le 27 janvier 2013 ( voir les logs attaché au ticket )</p>
<p><img src="https://redmine.april.org/attachments/download/442/redmine.png" alt="" /></p> Admins - Anomalie #1175 (Fermé): reconfiguration asteriskhttps://redmine.april.org/issues/11752013-01-25T20:52:28ZLoïc Dachary
<p>De Axialis:</p>
<p>Suite à l'intégration progressive d'OpenSips sur notre plate-forme d'appel,<br />Veuillez noter l'adresse ip que vos clients doivent dès à présent ajouter à leurs configurations afin de recevoir des appels.</p>
<p>sip-ng.axialys.net : 217.146.224.140</p>
<p>conf sip asterisk exemple :</p>
<p>[sip-ng]<br />type=friend<br />host=217.146.224.140<br />deny=0.0.0.0/0.0.0.0<br />permit=217.146.224.140/255.255.255.255<br />context=votrecontexteappelici</p> Admins - Anomalie #1172 (Fermé): VPN connection vers OpenStack downhttps://redmine.april.org/issues/11722013-01-11T11:06:12ZLoïc DacharyAdmins - Anomalie #1169 (Fermé): backup de controller.vm.april-int stuckhttps://redmine.april.org/issues/11692013-01-04T15:55:51ZLoïc Dachary
<p>10 heures après le début de la sauvegarde le process est encore en route<br /><pre>
root@harmine:/# ps -fuawxw | grep contro
backuppc 32080 0.0 0.0 73848 18264 ? S 02:00 0:00 \_ /usr/bin/perl /usr/share/backuppc/bin/BackupPC_dump controller.vm.april-int
backuppc 32118 0.0 0.0 40572 2960 ? S 02:00 0:00 \_ /usr/bin/ssh -q -i /var/lib/backuppc/.ssh/abackup -o UserKnownHostsFile=/dev/null -o StrictHostKeyChecking=false -x -l abackup controller.vm.april-int /var/local/abackup/rsync_sender --server --sender --numeric-ids --perms --owner --group -D --links --hard-links --times --block-size=2048 --recursive --checksum-seed=32761 --one-file-system --bwlimit=2560 . /
</pre><br />via <a class="external" href="https://backuppc.april.org/cgi-bin/index.cgi?host=controller.vm.april-int">https://backuppc.april.org/cgi-bin/index.cgi?host=controller.vm.april-int</a> le backup est interrompu et redémaré en séquentiel, il réussit:<br /><pre>
root@harmine:/# tail -f /var/lib/backuppc/pc/controller.vm.april-int/LOG.012013
13-01-04 02:00:01 incr backup started back to 2013-01-03 02:00:01 (backup #20) for directory /
2013-01-04 16:50:16 Aborting backup up after signal INT
2013-01-04 16:50:17 Got fatal error during xfer (fileListReceive failed)
2013-01-04 16:50:29 incr backup started back to 2013-01-03 02:00:01 (backup #20) for directory /
2013-01-04 16:51:31 incr backup 21 complete, 30 files, 3305102 bytes, 0 xferErrs (0 bad files, 0 bad shares, 0 other)
</pre></p> Admins - Anomalie #1167 (Fermé): Réponse au questionnaire de ETIENNE CROMBEZhttps://redmine.april.org/issues/11672013-01-04T08:47:47ZLoïc Dachary
<p>Une remontée de bug du questionnaire des adhérents...<br />Une idée?</p>
<blockquote><blockquote><blockquote><blockquote>
<p>Avez-vous des commentaires, précisions à apporter ?</p>
</blockquote></blockquote></blockquote></blockquote>
<blockquote><blockquote><blockquote>
<p>ce formulaire rend très mal, la page n'est pas du tout valide !</p>
</blockquote></blockquote></blockquote>
<blockquote><blockquote>
<p>Pourriez-vous nous en dire plus ? la page n'est pas accessible ?</p>
</blockquote></blockquote>
<blockquote>
<p>La page HTML n'était pas complète ce qui fait qu'il n'y avait aucune<br />présentation juste du texte noir sur blanc.<br />Ça doit jouer sur l'accessibilité de la page.<br />Peut être ai-je remplis le formulaire au mauvais moment. :-/</p>
</blockquote>
<p>Merci d'avance.</p> Admins - Anomalie #1160 (Fermé): peer explicite dans ccd openvpnhttps://redmine.april.org/issues/11602012-12-27T15:00:51ZLoïc Dachary
<p>après restart de openvpn sur pavot.april.org les routes ne se propagent pas car les fichiers ccd contiennent une mention explicit du peer</p> Admins - Anomalie #1144 (Fermé): gestion des utilisateurs pour l'integration continuehttps://redmine.april.org/issues/11442012-12-22T16:27:57ZLoïc Dachary
<ul>
<li>faire un user sur ci.april.org et lui faire un bashrc qui charge les credentials openstack</li>
<li>ajouter la clé dans toutes les vm déployées a des fins de test</li>
</ul> Admins - Anomalie #1125 (Fermé): ajouter un bot jenkins.april.orghttps://redmine.april.org/issues/11252012-12-17T23:17:49ZLoïc Dachary
<p>qui va sur #april-admin et qui permet de lancer le job puppetmaster</p>