From ce36e7e09b8c77d0b91cba98db3aa4f96f558241 Mon Sep 17 00:00:00 2001 From: Quentin Dufour Date: Mon, 28 Mar 2022 11:59:37 +0200 Subject: [PATCH] =?UTF-8?q?Ajout=20coupure=20=C3=A9lec=20+=20SSD=20lent?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- op_guide/postmortem/2021-07-12-synapse-bdd-rempli-disque.md | 3 +++ op_guide/postmortem/petits-incidents.md | 2 ++ 2 files changed, 5 insertions(+) diff --git a/op_guide/postmortem/2021-07-12-synapse-bdd-rempli-disque.md b/op_guide/postmortem/2021-07-12-synapse-bdd-rempli-disque.md index 89d1c3c..8514016 100644 --- a/op_guide/postmortem/2021-07-12-synapse-bdd-rempli-disque.md +++ b/op_guide/postmortem/2021-07-12-synapse-bdd-rempli-disque.md @@ -2,10 +2,13 @@ Todo: finir ce blog post et le dupliquer ici https://quentin.dufour.io/blog/2021-07-12/chroniques-administration-synapse/ +Le WAL qui grossissait à l'infini était également du à un SSD défaillant dont les écritures était abyssalement lentes. + Actions mises en place : - Documentation de comment ajouter de l'espace sur un disque différent avec les tablespaces - Interdiction de rejoindre les rooms avec une trop grande complexité - nettoyage de la BDD à la main (rooms vides, comptes non utilisés, etc.) + - Remplacement du SSD défaillant Actions à mettre en place : - Utiliser les outils de maintenance de base de données distribuées par le projet matrix diff --git a/op_guide/postmortem/petits-incidents.md b/op_guide/postmortem/petits-incidents.md index 06d0b3d..bcf8ce4 100644 --- a/op_guide/postmortem/petits-incidents.md +++ b/op_guide/postmortem/petits-incidents.md @@ -1,3 +1,5 @@ +- **2021-07-27** Panne de courant à Rennes - 40 000 personnes sans électricité pendant une journée - nos serveurs de prod étant dans la zone coupée, deuxfleurs.fr est dans le noir - https://www.francebleu.fr/infos/faits-divers-justice/rennes-plusieurs-quartiers-prives-d-electricite-1627354121 + - **2021-12:** Tentative de migration un peu trop hâtive vers Tricot pour remplacer Traefik qui pose des soucis. Downtime et manque de communication sur les causes, confusion généralisée. *Actions à envisager:* prévoir à l'avance toute intervention de nature à impacter la qualité de service sur l'infra Deuxfleurs. Tester en amont un maximum pour éviter de devoir tester en prod. Lorsque le test en prod est inévitable, s'organiser pour impacter le moins de monde possible.