Incident le 19/10/2021

L'objectif de l'opération menée le 19/10/2021 a été la mise en production des tickets d'API relatifs au rapport de kilomètres commerciaux. Cette mise en production a nécessité une mise en maintenance du site prévue à l'origine de 14h à 16h30.

A la réouverture du service, une saturation des serveurs (100 mille évènements driver à la seconde) a été observée et a entrainé des lenteurs sur la plateforme d'exploitation et de supervision voire, pour certains utilisateurs, l'impossibilité d'y accéder.

Détail de l'opération et problèmes rencontrés

14h17: passage en mode maintenance
14h19: release déployée en production
14h29: lancement de la migration des données sur les 215 groupes
15h40: fin de la migration (OK)

Tests internes de la release (temps réel et données migrées):OK

16h20: ouverture du service

reprise très lente, stagnation à 300 devices au lieu de 1000
saturation des serveurs physiques (CPU > 95%)

17h52: rollback de la release pour s'assurer que le problème vient de l'infra
ça ne change rien, toujours plafonné à 300 devices
18h30: Cluster mongo migré vers M60 (2x plus rapide)

réception de 100 000 événements driver/minute entre 17h00 et 18h50

19h05: fin d'incident

Incident le 21/06/2021

Nous créons des index Mongo sur la base de production afin d'améliorer les temps de réponse sur les requêtes history?device_id={}

19:43:00 : création de l'index sur history.events, sur le champ device_id

20:03:00 : suppression de l'index

20:03:45 : Grafana perd la connexion au cluster

20:04:00 : augmentation très élevée des temps de réponse API

20:04:40 : premières erreurs remontées par OP

20:09:00 : des pods redémarrent

20:10:00 : action de redémarrage du cluster de prod

20:10:00 : retour à la normale

Avez-vous trouvé votre réponse?