Incident le 19/10/2021
L'objectif de l'opération menée le 19/10/2021 a été la mise en production des tickets d'API relatifs au rapport de kilomètres commerciaux. Cette mise en production a nécessité une mise en maintenance du site prévue à l'origine de 14h à 16h30.
A la réouverture du service, une saturation des serveurs (100 mille évènements driver à la seconde) a été observée et a entrainé des lenteurs sur la plateforme d'exploitation et de supervision voire, pour certains utilisateurs, l'impossibilité d'y accéder.
Détail de l'opération et problèmes rencontrés
14h17: passage en mode maintenance
14h19: release déployée en production
14h29: lancement de la migration des données sur les 215 groupes
15h40: fin de la migration (OK)
Tests internes de la release (temps réel et données migrées):OK
16h20: ouverture du service
reprise très lente, stagnation à 300 devices au lieu de 1000
saturation des serveurs physiques (CPU > 95%)
17h52: rollback de la release pour s'assurer que le problème vient de l'infra
ça ne change rien, toujours plafonné à 300 devices
18h30: Cluster mongo migré vers M60 (2x plus rapide)
réception de 100 000 événements driver/minute entre 17h00 et 18h50
19h05: fin d'incident
Incident le 21/06/2021
Nous créons des index Mongo sur la base de production afin d'améliorer les temps de réponse sur les requêtes history?device_id={}
19:43:00 : création de l'index sur history.events, sur le champ device_id
20:03:00 : suppression de l'index
20:03:45 : Grafana perd la connexion au cluster
20:04:00 : augmentation très élevée des temps de réponse API
20:04:40 : premières erreurs remontées par OP
20:09:00 : des pods redémarrent
20:10:00 : action de redémarrage du cluster de prod
20:10:00 : retour à la normale