Projet

Général

Profil

Actions

Anomalie #978

fermé

remonté des alertes lorsqu'un service ou une machine est planté

Ajouté par Loïc Dachary il y a environ 12 ans. Mis à jour il y a plus de 5 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
Catégorie:
Task
Version cible:
Début:
09/11/2012
Echéance:
28/11/2012
% réalisé:

100%

Temps estimé:
(Total: 0:30 h)
Temps passé:
7:24 h (Total: 12:06 h)
Difficulté:
3 Moyen

Description

Ce qui est arrivé:

  • Fred est arrivé un matin au local
  • En se connectant il s'aperçoit que la machine pavot est planté
  • En utilisant DRAC et gnash il parvient a rebooter en appuyant sur F1

Ce qui aurait du arriver:

  • Pavot est planté
  • Une alerte zabbix note le plantage
  • Un mail est envoyé à une ou plusieurs personnes de l'équipe d'adminsys sur leurs adresses personelles de façon a maximiser les chances de les joindre
  • Une personne disponible utilise DRAC et gnash pour rebooter en appuyant sur F1

Notes:

  • Il serait bien d'envoyer un SMS en plus des mails mais ça ne parait pas indispensable
  • Si une machine ou un service est down pendant plusieurs heures parceque personne n'a pas relevé son mail, c'est la vie
  • Si une échéance importante pour l'April demande que des ressources soient disponibles en permanence alors il serait bien de s'organiser pour faire des tours d'astreinte temporaires

Sous-tâches 3 (0 ouverte3 fermées)

Demande #1014: monitoring du vserver dns sur pavot.april.orgFerméLoïc Dachary09/11/201228/11/2012

Actions
Anomalie #1015: impossible de lancer zabbix_agent sur le vserver dns de pavot.april.orgFerméLoïc Dachary09/11/201209/11/2012

Actions
Demande #1017: ajout d'une alerte zabbix via les APIFerméLoïc Dachary10/11/201211/11/2012

Actions

Demandes liées 3 (0 ouverte3 fermées)

Lié à Admins - Demande #964: interview fcouchet pour des use case d'admin sysFerméLoïc Dachary31/10/201201/11/2012

Actions
Lié à Admins - Demande #986: mise a jour de la charte adminFerméLoïc Dachary03/11/201228/11/2012

Actions
Lié à Admins - Demande #1016: Surveillance des sites webFerméBenjamin Drieu

Actions

Mis à jour par Loïc Dachary il y a environ 12 ans

  • Sujet changé de remonté des alertes à remonté des alertes lorsqu'un service ou une machine est planté
  • Priorité changé de Normale à Immédiate

Mis à jour par Loïc Dachary il y a environ 12 ans

  • Statut changé de Nouveau à En cours de traitement
  • Assigné à mis à Loïc Dachary
  • Version cible changé de Backlog à Novembre 2012
  • % réalisé changé de 0 à 80

Un serveur zabbix était planté et a été relancé par theo. C'était celui de
ssh -t -A vserver ephedrine enter
La page décrivant l'installation zabbix a été modifiée pour mentionner l'alias mail sur lequel les alertes sont envoyées.
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:configuration:zabbix_install&do=revisions
Une modification de la charge des admin sys est proposée
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:charte&do=revisions

Mis à jour par Loïc Dachary il y a environ 12 ans

  • Catégorie changé de Story à Task

Mis à jour par Loïc Dachary il y a environ 12 ans

  • Echéance mis à 28/11/2012

Mis à jour par Loïc Dachary il y a environ 12 ans

  • % réalisé changé de 80 à 90

Mis à jour par Loïc Dachary il y a environ 12 ans

Ajout de nouveaux hosts sur zabbix tournant sur ns1.april.org pour vérifier la présence des vservers sur pavot:

Mis à jour par Loïc Dachary il y a environ 12 ans

installation et configuration de l'agent zabbix sur le guest lamp de pavot.april.org
comment monitorer les vhosts qui sont censés être la ?
http://blog.torbonium.com/index.php/2008/09/16/zabbix_and_monitoring_apache_gentoo_mod_?blog=10
  • Ajouter un host
  • Ajouter un scenario avec Configuration => Web => Create scenarios

Mis à jour par Loïc Dachary il y a environ 12 ans

http://127.0.0.1:8080/zabbix/httpmon.php monitor désormais tous les vhosts fournis par le vserver lamp de pavot.april.org tels que décrits sur http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:lamp

Mis à jour par Loïc Dachary il y a presque 12 ans

  • Version cible changé de Novembre 2012 à Décembre 2012 (1/2)

Mis à jour par Loïc Dachary il y a presque 12 ans

  • Version cible changé de Décembre 2012 (1/2) à Backlog

Mis à jour par Loïc Dachary il y a presque 12 ans

  • Statut changé de En cours de traitement à Fermé

il reste une immense quantité d'alerte a créer pour les services mais la remonté d'alerte en cas de panne matérielle est ok

Actions

Formats disponibles : Atom PDF