Project

General

Profile

Actions

Anomalie #978

closed

remonté des alertes lorsqu'un service ou une machine est planté

Added by Loïc Dachary over 11 years ago. Updated about 5 years ago.

Status:
Fermé
Priority:
Normale
Assignee:
Category:
Task
Target version:
Start date:
11/09/2012
Due date:
11/28/2012
% Done:

100%

Estimated time:
(Total: 0:30 h)
Spent time:
7:24 h (Total: 12:06 h)
Difficulté:
3 Moyen

Description

Ce qui est arrivé:

  • Fred est arrivé un matin au local
  • En se connectant il s'aperçoit que la machine pavot est planté
  • En utilisant DRAC et gnash il parvient a rebooter en appuyant sur F1

Ce qui aurait du arriver:

  • Pavot est planté
  • Une alerte zabbix note le plantage
  • Un mail est envoyé à une ou plusieurs personnes de l'équipe d'adminsys sur leurs adresses personelles de façon a maximiser les chances de les joindre
  • Une personne disponible utilise DRAC et gnash pour rebooter en appuyant sur F1

Notes:

  • Il serait bien d'envoyer un SMS en plus des mails mais ça ne parait pas indispensable
  • Si une machine ou un service est down pendant plusieurs heures parceque personne n'a pas relevé son mail, c'est la vie
  • Si une échéance importante pour l'April demande que des ressources soient disponibles en permanence alors il serait bien de s'organiser pour faire des tours d'astreinte temporaires

Subtasks 3 (0 open3 closed)

Demande #1014: monitoring du vserver dns sur pavot.april.orgFerméLoïc Dachary11/09/201211/28/2012

Actions
Anomalie #1015: impossible de lancer zabbix_agent sur le vserver dns de pavot.april.orgFerméLoïc Dachary11/09/201211/09/2012

Actions
Demande #1017: ajout d'une alerte zabbix via les APIFerméLoïc Dachary11/10/201211/11/2012

Actions

Related issues 3 (0 open3 closed)

Related to Admins - Demande #964: interview fcouchet pour des use case d'admin sysFerméLoïc Dachary10/31/201211/01/2012

Actions
Related to Admins - Demande #986: mise a jour de la charte adminFerméLoïc Dachary11/03/201211/28/2012

Actions
Related to Admins - Demande #1016: Surveillance des sites webFerméBenjamin Drieu

Actions
Actions #1

Updated by Loïc Dachary over 11 years ago

  • Subject changed from remonté des alertes to remonté des alertes lorsqu'un service ou une machine est planté
  • Priority changed from Normale to Immédiate
Actions #2

Updated by Loïc Dachary over 11 years ago

  • Status changed from Nouveau to En cours de traitement
  • Assignee set to Loïc Dachary
  • Target version changed from Backlog to Novembre 2012
  • % Done changed from 0 to 80

Un serveur zabbix était planté et a été relancé par theo. C'était celui de
ssh -t -A vserver ephedrine enter
La page décrivant l'installation zabbix a été modifiée pour mentionner l'alias mail sur lequel les alertes sont envoyées.
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:configuration:zabbix_install&do=revisions
Une modification de la charge des admin sys est proposée
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:charte&do=revisions

Actions #3

Updated by Loïc Dachary over 11 years ago

  • Category changed from Story to Task
Actions #4

Updated by Loïc Dachary over 11 years ago

  • Due date set to 11/28/2012
Actions #5

Updated by Loïc Dachary over 11 years ago

  • % Done changed from 80 to 90
Actions #6

Updated by Loïc Dachary over 11 years ago

Ajout de nouveaux hosts sur zabbix tournant sur ns1.april.org pour vérifier la présence des vservers sur pavot:

Actions #8

Updated by Loïc Dachary over 11 years ago

installation et configuration de l'agent zabbix sur le guest lamp de pavot.april.org
comment monitorer les vhosts qui sont censés être la ?
http://blog.torbonium.com/index.php/2008/09/16/zabbix_and_monitoring_apache_gentoo_mod_?blog=10
  • Ajouter un host
  • Ajouter un scenario avec Configuration => Web => Create scenarios
Actions #9

Updated by Loïc Dachary over 11 years ago

http://127.0.0.1:8080/zabbix/httpmon.php monitor désormais tous les vhosts fournis par le vserver lamp de pavot.april.org tels que décrits sur http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:lamp

Actions #11

Updated by Loïc Dachary over 11 years ago

  • Target version changed from Novembre 2012 to Décembre 2012 (1/2)
Actions #12

Updated by Loïc Dachary over 11 years ago

  • Target version changed from Décembre 2012 (1/2) to Backlog
Actions #13

Updated by Loïc Dachary over 11 years ago

  • Status changed from En cours de traitement to Fermé

il reste une immense quantité d'alerte a créer pour les services mais la remonté d'alerte en cas de panne matérielle est ok

Actions

Also available in: Atom PDF