Projet

Général

Profil

Anomalie #978

remonté des alertes lorsqu'un service ou une machine est planté

Ajouté par Loïc Dachary il y a plus de 11 ans. Mis à jour il y a presque 5 ans.

Statut:
Fermé
Priorité:
Normale
Assigné à:
Catégorie:
Task
Version cible:
Début:
09/11/2012
Echéance:
28/11/2012
% réalisé:

100%

Temps estimé:
(Total: 0.50 h)
Temps passé:
7.40 h (Total: 12.10 h)
Difficulté:
3 Moyen

Description

Ce qui est arrivé:

  • Fred est arrivé un matin au local * En se connectant il s'aperçoit que la machine pavot est planté * En utilisant DRAC et gnash il parvient a rebooter en appuyant sur F1

Ce qui aurait du arriver:

  • Pavot est planté * Une alerte zabbix note le plantage * Un mail est envoyé à une ou plusieurs personnes de l'équipe d'adminsys sur leurs adresses personelles de façon a maximiser les chances de les joindre * Une personne disponible utilise DRAC et gnash pour rebooter en appuyant sur F1

Notes:

  • Il serait bien d'envoyer un SMS en plus des mails mais ça ne parait pas indispensable * Si une machine ou un service est down pendant plusieurs heures parceque personne n'a pas relevé son mail, c'est la vie * Si une échéance importante pour l'April demande que des ressources soient disponibles en permanence alors il serait bien de s'organiser pour faire des tours d'astreinte temporaires

Sous-tâches

Demande #1014: monitoring du vserver dns sur pavot.april.orgFerméLoïc Dachary

Actions
Anomalie #1015: impossible de lancer zabbix_agent sur le vserver dns de pavot.april.orgFerméLoïc Dachary

Actions
Demande #1017: ajout d'une alerte zabbix via les APIFerméLoïc Dachary

Actions

Demandes liées

Lié à Admins - Demande #964: interview fcouchet pour des use case d'admin sysFermé31/10/201201/11/2012

Actions
Lié à Admins - Demande #986: mise a jour de la charte adminFermé03/11/201228/11/2012

Actions
Lié à Admins - Demande #1016: Surveillance des sites webFermé

Actions

Historique

#1

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Sujet changé de remonté des alertes à remonté des alertes lorsqu'un service ou une machine est planté
  • Priorité changé de Normale à Immédiate
#2

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Statut changé de Nouveau à En cours de traitement
  • Assigné à mis à Loïc Dachary
  • Version cible changé de Backlog à Novembre 2012
  • % réalisé changé de 0 à 80

Un serveur zabbix était planté et a été relancé par theo. C'était celui de
ssh -t -A vserver ephedrine enter
La page décrivant l'installation zabbix a été modifiée pour mentionner l'alias mail sur lequel les alertes sont envoyées.
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:configuration:zabbix_install&do=revisions
Une modification de la charge des admin sys est proposée
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:charte&do=revisions

#3

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Catégorie changé de Story à Task
#4

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Echéance mis à 28/11/2012
#5

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • % réalisé changé de 80 à 90
#6

Mis à jour par Loïc Dachary il y a plus de 11 ans

Ajout de nouveaux hosts sur zabbix tournant sur ns1.april.org pour vérifier la présence des vservers sur pavot:

#8

Mis à jour par Loïc Dachary il y a plus de 11 ans

installation et configuration de l'agent zabbix sur le guest lamp de pavot.april.org
comment monitorer les vhosts qui sont censés être la ?
http://blog.torbonium.com/index.php/2008/09/16/zabbix_and_monitoring_apache_gentoo_mod_?blog=10
  • Ajouter un host
  • Ajouter un scenario avec Configuration => Web => Create scenarios
#9

Mis à jour par Loïc Dachary il y a plus de 11 ans

http://127.0.0.1:8080/zabbix/httpmon.php monitor désormais tous les vhosts fournis par le vserver lamp de pavot.april.org tels que décrits sur http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:lamp

#10

Mis à jour par Loïc Dachary il y a plus de 11 ans

#11

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Version cible changé de Novembre 2012 à Décembre 2012 (1/2)
#12

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Version cible changé de Décembre 2012 (1/2) à Backlog
#13

Mis à jour par Loïc Dachary il y a plus de 11 ans

  • Statut changé de En cours de traitement à Fermé

il reste une immense quantité d'alerte a créer pour les services mais la remonté d'alerte en cas de panne matérielle est ok

Formats disponibles : Atom PDF