Retour aux actualités

Métrologie et observabilité : vers une plateforme Grafana

Le 7 février 2024

La fermeture des salles de Saint-Médard-en-Jalles reste la priorité pour les équipes d’infrastructures de la DNUM avec une date symbolique à venir en décembre et l’arrêt électrique des baies. Cependant, en raison des délais de mise en œuvre de tout chantier dans ce domaine, il faut déjà avoir lancé les expérimentations des futures plateformes. L’objet de ce billet est d’entretenir sur un chantier qui a déjà débuté et qui se matérialisera plus largement à partir de 2024.

Temps de lecture estimé : 2 mn
Métrologie et observabilité : vers une plateforme Grafana

Historiquement, la DNUM et ses prédécesseurs est une ardente partisane et a mis l’accent sur la supervision bout en bout : le PSIN, pôle de supervision Internet national, simule les actions d’un utilisateur final sur un PC physique (devenu virtuel) et observe la disponibilité et les performances de toute la chaine, y compris celles qui ne sont pas directement de la responsabilité de la DNUM, comme la PFAI du RIE. Cela permet de réconcilier et de factualiser plus facilement les signalements utilisateurs ou de superviser des services qui sont fournis par des tiers mais importants pour les utilisateurs du pôle ministériel.

Cependant les symptômes sont parfois très éloignés des causes techniques. C’est pourquoi en parallèle de la supervision « externe », nous avons besoin de métrologie, c’est-à-dire le recueil d’informations techniques en continu, avec les machines serveurs comme sources directes. Historiquement, c’était le rôle dévolu aux protocoles SNMP et syslog mais ceux-ci ont du mal à s’étendre dans un monde segmenté par des pare-feux et des proxys de toute nature. Dans ce contexte, le paysage qui prévaut est que chaque équipe a mis au point sa collecte technique mais pratique peu le partage, parfois pour de sordides questions de licence comme les Elasticsearch instanciés par tenant de la plateforme PaaS Java.

Au premier semestre 2023, MSP a donc réfléchi à la plateforme mutualisée « d’observabilité », comme on dit maintenant. Idéalement, elle apporterait :

  • puits de logs et de métriques, interface graphique familière au plus grand nombre d’intervenants
  • plateforme mutualisée avec segmentation par tenant
  • ingestion via syslog ou http
  • capacité d’ingérer des volumétries significatives (de l’ordre de 100 Go/j pour le centre serveur)
  • si possible, agent unifié, configurable via un seul fichier
  • déployable dans tous les types d’environnement : Openstack, VMware, CS ou Internet (pour des serveurs externes par exemple)
  • auto-hébergeable et soutenable économiquement
    Après un tour des solutions ayant une large implantation sur le marché, l’expérimentation du printemps a ciblé la suite Grafana complète, en suivant une analyse assez similaire à d’autres organisations (https://grafana.com/blog/2023/08/11/how-qonto-used-grafana-loki-to-build-its-network-observability-platform/)
  • Open Source Core de manière similaire au choix de Gitlab (forge ministérielle)
  • Grafana pour l’interface utilisateur, avec authentification Cerbère : les instance Grafana se sont déjà « naturellement multipliées » mais elles sont rarement intégrées avec le SSO, qui apporte la facilité à déléguer la gestion de la sécurité d’accès.
  • Prometheus pour la collecte de métriques, modes push ou pull,
  • Loki pour la collecte de logs,
  • d’autres composants, embarqués mais invisibles

La phase d’exploration a montré que la faisabilité était assurée avec des volumétries de l’ordre de grandeur de la cible (le DNS seul produit déjà 40 Go/j de logs). Dans le cadre d’une démarche itérative sans date buttoir externe, il n’y a pas jalons gravés dans le marbre. Cependant le calendrier prévisionnel est le suivant :

  • Jusqu’à fin 2023, montée en charge : la fermeture de Saint-Médard est prioritaire. La plateforme est ouverte à quelques bénéficiaires prêts à accepter une plateforme en rodage opérationnel
  • A partir de début 2024, ouverture progressive à tous les demandeurs

PS : la plateforme aura probablement comme petit nom interne celui d’un animal curieux mais craintif.

Crédits illustration : Damien Carles / Terra