Project

General

Profile

Anomalie #978

remonté des alertes lorsqu'un service ou une machine est planté

Added by Loïc Dachary almost 11 years ago. Updated over 4 years ago.

Status:
Fermé
Priority:
Normale
Assignee:
Category:
Task
Target version:
Start date:
11/09/2012
Due date:
11/28/2012
% Done:

100%

Estimated time:
(Total: 0.50 h)
Spent time:
7.40 h (Total: 12.10 h)
Difficulté:
3 Moyen

Description

Ce qui est arrivé:

  • Fred est arrivé un matin au local * En se connectant il s'aperçoit que la machine pavot est planté * En utilisant DRAC et gnash il parvient a rebooter en appuyant sur F1

Ce qui aurait du arriver:

  • Pavot est planté * Une alerte zabbix note le plantage * Un mail est envoyé à une ou plusieurs personnes de l'équipe d'adminsys sur leurs adresses personelles de façon a maximiser les chances de les joindre * Une personne disponible utilise DRAC et gnash pour rebooter en appuyant sur F1

Notes:

  • Il serait bien d'envoyer un SMS en plus des mails mais ça ne parait pas indispensable * Si une machine ou un service est down pendant plusieurs heures parceque personne n'a pas relevé son mail, c'est la vie * Si une échéance importante pour l'April demande que des ressources soient disponibles en permanence alors il serait bien de s'organiser pour faire des tours d'astreinte temporaires

Subtasks

Demande #1014: monitoring du vserver dns sur pavot.april.orgFerméLoïc Dachary

Actions
Anomalie #1015: impossible de lancer zabbix_agent sur le vserver dns de pavot.april.orgFerméLoïc Dachary

Actions
Demande #1017: ajout d'une alerte zabbix via les APIFerméLoïc Dachary

Actions

Related issues

Related to Admins - Demande #964: interview fcouchet pour des use case d'admin sysFermé10/31/201211/01/2012

Actions
Related to Admins - Demande #986: mise a jour de la charte adminFermé11/03/201211/28/2012

Actions
Related to Admins - Demande #1016: Surveillance des sites webFermé

Actions

History

#1

Updated by Loïc Dachary almost 11 years ago

  • Subject changed from remonté des alertes to remonté des alertes lorsqu'un service ou une machine est planté
  • Priority changed from Normale to Immédiate
#2

Updated by Loïc Dachary almost 11 years ago

  • Status changed from Nouveau to En cours de traitement
  • Assignee set to Loïc Dachary
  • Target version changed from Backlog to Novembre 2012
  • % Done changed from 0 to 80

Un serveur zabbix était planté et a été relancé par theo. C'était celui de
ssh -t -A vserver ephedrine enter
La page décrivant l'installation zabbix a été modifiée pour mentionner l'alias mail sur lequel les alertes sont envoyées.
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:configuration:zabbix_install&do=revisions
Une modification de la charge des admin sys est proposée
http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:equipe:charte&do=revisions

#3

Updated by Loïc Dachary almost 11 years ago

  • Category changed from Story to Task
#4

Updated by Loïc Dachary almost 11 years ago

  • Due date set to 11/28/2012
#5

Updated by Loïc Dachary almost 11 years ago

  • % Done changed from 80 to 90
#6

Updated by Loïc Dachary almost 11 years ago

Ajout de nouveaux hosts sur zabbix tournant sur ns1.april.org pour vérifier la présence des vservers sur pavot:

#8

Updated by Loïc Dachary almost 11 years ago

installation et configuration de l'agent zabbix sur le guest lamp de pavot.april.org
comment monitorer les vhosts qui sont censés être la ?
http://blog.torbonium.com/index.php/2008/09/16/zabbix_and_monitoring_apache_gentoo_mod_?blog=10
  • Ajouter un host
  • Ajouter un scenario avec Configuration => Web => Create scenarios
#9

Updated by Loïc Dachary almost 11 years ago

http://127.0.0.1:8080/zabbix/httpmon.php monitor désormais tous les vhosts fournis par le vserver lamp de pavot.april.org tels que décrits sur http://127.0.0.1:8080/dokuwiki/doku.php?id=sysadm:machines_virtuelles:pavot:lamp

#11

Updated by Loïc Dachary almost 11 years ago

  • Target version changed from Novembre 2012 to Décembre 2012 (1/2)
#12

Updated by Loïc Dachary almost 11 years ago

  • Target version changed from Décembre 2012 (1/2) to Backlog
#13

Updated by Loïc Dachary almost 11 years ago

  • Status changed from En cours de traitement to Fermé

il reste une immense quantité d'alerte a créer pour les services mais la remonté d'alerte en cas de panne matérielle est ok

Also available in: Atom PDF