Project

General

Profile

Anomalie #4572

Sauvegardes simultanées et saturation SI

Added by Christian P. Momon over 1 year ago. Updated 4 days ago.

Status:
En cours de traitement
Priority:
Normale
Assignee:
Category:
-
Target version:
Start date:
06/29/2020
Due date:
% Done:

0%

Estimated time:
Difficulté:
2 Facile

Description

Très fréquemment, à partir de vers 20h, les sites April se mettent à ramer au point d'être parfois indisponibles.

Souvent, on constate qu'il y a des sauvegardes en cours et on ne fait rien.

En général, paralléliser les sauvegardes des machines est une bonne idée mais là toutes nos vms surchargent le même disque dur.

Demande :
  • valider que la saturation SI vient des sauvegardes simultanées ;
  • rendre impossible les sauvegardes simultanées.

Files

io_wait.png (1.24 MB) io_wait.png Romain H., 11/28/2020 11:18 AM

History

#1

Updated by Quentin Gibeaux over 1 year ago

  • Assignee set to Romain H.
#2

Updated by Quentin Gibeaux over 1 year ago

  • Target version changed from Juin 2020 to Été 2020
#3

Updated by Christian P. Momon over 1 year ago

  • Status changed from Nouveau to En cours de traitement
Actuellement :
  • MaxBackups :
    • Maximum number of simultaneous backups to run. If there are no user backup requests then this is the maximum number of simultaneous backups.
    • backuppc : 2
    • backuppc2 : 4
  • MaxUserBackups :
    • Additional number of simultaneous backups that users can run. As many as $Conf{MaxBackups} + $Conf{MaxUserBackups} requests can run at the same time.
    • backuppc : 4
    • backuppc2 : 4

Donc si on considère rare le lancement de UserBackup, on peut avoir 6 backups en parallèle.

Proposition de passer le MaxBackups de backuppc2 de 4 à 2, ce qui baisserait le nombre de maximal de sauvegardes en parallèle de 6 à 4.

Fait pour tester cet été.

#4

Updated by Quentin Gibeaux about 1 year ago

  • Target version changed from Été 2020 to Septembre 2020
#5

Updated by Quentin Gibeaux about 1 year ago

  • Target version changed from Septembre 2020 to Octobre 2020
#6

Updated by Romain H. about 1 year ago

En se basant sur les dernières sauvegardes complètes, le total est de 660 Go avec une durée de 26h.

Les serveurs ne font pas les sauvegardes complètes en même temps, chaque nuit les sauvegardes incrémentales et complètes s'entremêlements et le temps est donc beaucoup plus court.

Sur la journée du 26/10 par exemple, le temps total de sauvegarde est de 7,9 heures.
Si on souhaite que les sauvegardes soient réalisées une par une, il faut au moins prévoir 8 heures.

Cette journée est un exemple, l'alternance entre sauvegardes complètes et incrémentales peut faire varier plus ou moins cette durée, il faudrait prévoir une marge car c'est compliqué de déterminer à l'avance toutes les combinaisons possibles.

#7

Updated by Quentin Gibeaux about 1 year ago

  • Target version changed from Octobre 2020 to Novembre 2020
#8

Updated by Quentin Gibeaux about 1 year ago

  • Target version changed from Novembre 2020 to Décembre 2020
#9

Updated by Romain H. about 1 year ago

Dans la réunion admin de novembre, nous avons évoqué le fait de faire un test en exécutant les sauvegardes par Guarana et Galanga sur des créneaux horaires différents en divisant le créneau l'actuel en deux.
Pour les weekends, j'ai configuré Galanga sur 00h00 -> 05H00 et Guarana sur 05h00 -> 10h00.

#10

Updated by Romain H. about 1 year ago

Ci-joint, la comparaison des IO Wait entre le 27 et le 28 suite au changement de configuration.
Il ne semble pas y avoir d'évolution remarquable.

#11

Updated by Romain H. 12 months ago

J'ai remis les sauvegardes du weekend à la planification précédente (00h00->10h00) comme il n'y avait pas l'air d'y avoir d'impact positif et que toutes les sauvegardes ne passaient plus.

#12

Updated by Christian P. Momon 12 months ago

Serait-il possible d'avoir dans un tableau de bord Grafana en même temps :
  • pour virola :
    • I/O Wait DRBD
    • volume lecture et écriture sur le lien inter-machine
    • volume lecture et écriture sur le lien internet
    • volume lecture et écriture sur le disque
#13

Updated by Quentin Gibeaux 11 months ago

  • Target version changed from Décembre 2020 to Janvier 2021
#14

Updated by Romain H. 10 months ago

J'ai fait un premier jet de Dashboard sur https://grafana.april.org/d/I_D76iYGk/romaindashboardio?orgId=1 .
Je cherche à faire le "volume lecture et écriture sur le disque" mais je suis pas certain que les infos soient déjà en base de données.

#15

Updated by Quentin Gibeaux 10 months ago

  • Target version changed from Janvier 2021 to Février 2021
#16

Updated by Romain H. 10 months ago

Voir pour récupérer les infos de atopsar via une sonde icinga2 pour intégrer les infos dans Grafana.

#17

Updated by Quentin Gibeaux 9 months ago

  • Target version changed from Février 2021 to Mars 2021
#18

Updated by Quentin Gibeaux 8 months ago

  • Target version changed from Mars 2021 to Avril 2021
#19

Updated by Quentin Gibeaux 7 months ago

  • Target version changed from Avril 2021 to Mai 2021
#20

Updated by Quentin Gibeaux 6 months ago

  • Target version changed from Mai 2021 to Juin 2021
#21

Updated by Quentin Gibeaux 5 months ago

  • Target version changed from Juin 2021 to Été 2021
#22

Updated by Quentin Gibeaux 3 months ago

  • Target version changed from Été 2021 to Septembre 2021
#23

Updated by Quentin Gibeaux 2 months ago

  • Target version changed from Septembre 2021 to Octobre 2021
#24

Updated by Quentin Gibeaux about 1 month ago

  • Target version changed from Octobre 2021 to Novembre 2021
#25

Updated by Quentin Gibeaux 4 days ago

  • Target version changed from Novembre 2021 to Décembre 2021

Also available in: Atom PDF