Retour aux actualités

Histoire d’un incident réel

Le 7 février 2024

Un dimanche de juillet, aux alentours de trois heures du matin, les composants d’un port de commutateur finirent par céder. Au lieu de remplir leur rôle habituel d’envoi et de réception, ils génèrent des trames réseaux aléatoires, sans toutefois provoquer une défaillance complète.

Temps de lecture estimé : 4 mn
Histoire d’un incident réel

En apparence, pour la supervision, le commutateur continue de fonctionner, mais bien sûr, les trames aberrantes lui indiquent occasionnellement de diffuser des paquets sur tous les LAN connectés.
Peu avant dix heures du soir, cela déclenche une « boucle d’amplification », une sorte d’effet Larsen appliqué aux réseaux. Soudainement, des effets collatéraux se manifestent à proximité, et parfois même sur un autre site, car l’isolation entre LAN et WAN n’est pas parfaite. Pour résoudre cet incident, il « suffira » d’identifier l’équipement fautif et le mettre hors tension, car l’équipement était redondé par conception du datacenter. Cependant, face à cette défaillance partielle, l’équipement en paire n’a jamais pu reprendre le contrôle des opérations.
Superficiellement, il est facile de pointer l’élément déclencheur, de justifier que la cause est une défaillance matérielle et de classer l’affaire sans suite. Mais l’analyse doit être approfondie.
En réalité, cet équipement faisait partie d’une série d’environ cinquante unités achetées sept ans auparavant. Atteintes par l’obsolescence, un plan de renouvellement avait été décidé l’année précédente. La majeure partie du parc avait déjà été mise à jour, seuls les équipements dans cet îlot restaient inchangés. Leur « survie » ne tenait qu’à deux facteurs : la commande avait déjà été passée auprès du fournisseur, mais le dernier lot d’équipements n’avait pas encore été livré ; l’îlot était dédié à l’hébergement de serveurs en fin de vie. Ces serveurs étaient connectés à des LAN étendus que l’on souhaitait restructurer. Cependant, le plan de reconfiguration avait pris du retard en raison de l’indisponibilité d’un chef de projet, ce qui montrait également que ce chantier n’était pas considéré comme prioritaire.

Si cette histoire comporte une leçon, elle est double. Quand des plans anti-SPOF (Single Point of Failure) sont en place, les scénarios d’incidents spécifiques résultent toujours d’une combinaison de facteurs difficilement imaginable à l’avance. Cependant, des défauts dans la maintenance sont presque toujours un facteur sous-jacent, de manière directe et/ou indirecte : une revue de maintenance aurait pu permettre la détection de signes annonciateurs, ou maintenir une familiarité avec le produit aurait pu minimiser le temps de remise en ordre.

Vers des maintenances préventives systématiques

Depuis le début de l’année 2021, le centre serveur du MTE s’est engagé dans l’élimination systématique des points uniques de défaillance (SPOF) au sein de ses infrastructures. Cette démarche s’est traduite par une amélioration déjà sensible de la fiabilité. Cependant, il reste encore à étendre les efforts de maintenance. Par exemple, il serait présomptueux d’affirmer que parmi le vaste patrimoine applicatif, composé de centaines de systèmes d’information, d’anciennes bibliothèques log4j ne sont pas présentes. Même si elles ne sont pas directement exploitables en raison de leur dissimulation derrière des couches de pare-feux, de proxys ou de bastions.
De manière similaire au parc automobile française, la plupart des systèmes d’information font déjà l’objet d’un suivi étroit, garantissant ainsi le maintien de leur qualité. Cependant, il existe également des systèmes d’information « oubliés ». Cela peut se produire lorsque le créateur initial a été affecté à d’autres responsabilités, ou lorsque le système en question est en fin de vie et que son remplaçant tarde à être déployé. Pour tous les cas où la bonne volonté et la conscience professionnelle ne sont pas suffisantes, il est judicieux de prévoir un garde-fou. C’est précisément l’objectif du contrôle technique biannuel pour les véhicules, qui vise à contrebalancer les coûts humains résultant d’un accident, ou même d’un incident tel qu’une panne de voiture sur le périphérique parisien.

Consultation publique

Pour dépasser le registre des simples rappels de bonnes intentions, la direction du numérique envisage la publication, d’ici la fin de cette année, d’une instruction ministérielle portant sur les maintenances préventives. Ce projet d’instruction est maintenant mis à la disposition dans le but de solliciter des avis et des propositions d’amendements.

La proposition de texte se concentre sur des points de contrôle strictement essentiels : sauvegardes, redémarrages, correctifs des vulnérabilités connues... La rédaction a été intentionnellement formulée de manière à permettre des justifications formalisées. En effet, face à l’inflation constatée des évaluations CVSS (Common Vulnerability Scoring System), il est parfois nécessaire de prendre du recul vis-à-vis de l’application mécanique d’un formulaire.
Les diverses directions et services du MTECT sont conviés à faire part de leurs avis par le biais des canaux de communication habituels avec la direction du numérique.

Cas pratique au sein des infrastructures

Pour conclure cet article avec une illustration concrète, prenons l’exemple de la connexion des grandes et belles salles d’hébergement de La Défense. Le ministère dispose de deux nodaux, des locaux techniques spécifiquement dédiés aux terminaisons des opérateurs télécoms et à la distribution des réseaux, en incluant des équipements de sécurité. En raison des conditions de déménagement pour succéder à SFR dans la tour Sequoia, le nodal de cette tour était resté « dans son jus ». Afin de garantir que tous les efforts déployés par ailleurs ne soient pas compromis par un maillon faible, la DNUM a choisi de mener cet été un projet complet de rénovation. La photographie ci-dessous illustre ce local technique où un système de poutres sur vérins permet de démonter le faux plancher sous les baies en fonctionnement (rappelons-le, elles sont redondantes). La salle est curée et réaménagée conformément à l’état de l’art (par exemple, des groupes de refroidissement avec récupération de chaleur résiduelle).

photo prise dans le Centre serveur à La Défense
photo prise dans le Centre serveur à La Défense