Cloud – Lead SRE – Compute and orchestration
Placé sous l’autorité du ministre des Armées, le Commissariat au Numérique de Défense (CND) a pour mission d’apporter un appui numérique performant et résilient aux opérations et de faciliter la construction du système de combat de demain autour du numérique et de la donnée. Il apporte un appui numérique permettant au ministère des Armées de fonctionner au quotidien, et gère les crédits qui lui ont attribués et rend compte des résultats obtenus à la Représentation nationale.
Ainsi, le CND assure la direction, l'exploitation et le soutien des réseaux d'infrastructure, du socle numérique ministériel mutualisé et des systèmes d'information (SI) et de communication qui lui sont confiés.
Lead SRE Compute & Orchestration
Vous concevez, déployez et opérez l'ensemble de la stack compute. Vos missions incluent :
Responsibilities
- Provisionnement & inventaire : mettre en œuvre l'automatisation complète (e.g., Tinkerbell, MAAS, Ironic, Netbox ou équivalents) ;
- Firmware & BMC : maîtriser, durcir et automatiser la couche firmware ;
- OS & Images : produire et déployer les images OS durcies ;
- Virtualisation : implémenter et exploiter la couche de virtualisation (OpenStack, Incus, KubeVirt ou équivalent) en garantissant isolation et résilience ;
- Kubernetes : opérer les clusters (control plane, workers, etcd) et assurer leur reconstruction rapide ainsi que la résilience multi-sites ;
- Reproductibilité : garantir des builds et déploiements déterministes, versionnés, auditables ;
- Sécurité : implémenter le durcissement à toutes les couches (firmware, OS, runtime) et contribuer à la chaîne de confiance boot-to-workload ;
- Documentation : rédiger les procédures d'exploitation et la documentation technique ;
- Pilotage : conduire l'exploitation par les SLO, error budgets et RETEX ;
- Équipe : encadrer techniquement les ingénieurs ; contribuer au recrutement et à la montée en compétences.
Qualifications
- Exploitation en production, en mode SRE, de plateforme d'hébergement à grande échelle : gestion d'incidents, astreintes, pilotage par SLO/SLI ;
- Maîtrise opérationnelle d'au moins une solution d'orchestration de compute en production :
- Soit virtualisation : OpenStack, Incus ou équivalent avec gestion multi-cluster, isolation et résilience ;
- Soit Kubernetes : déploiement et exploitation de clusters multi-sites avec leur gestion centralisée (Rancher ou équivalent) ;
- Provisionnement bare metal à grande échelle ;
- Culture SRE : automatisation, observabilité, RETEX et amélioration continue.
- Expertise pointue attendue sur l'un des deux domaines (VM ou Kubernetes), le second étant couvert par un recrutement complémentaire ;
- Maîtrise fonctionnement Linux et expérience des OS immutables ou durcis ;
- Expertise d’un OS déclaratif ou d’un langage d'infrastructure as code (Terraform, Ansible, Helm) ;
- Maîtrise d'au moins un langage de programmation (Go ou Python) : être capable d’implémenter des routines d'orchestration (contrôleurs) ;
- Très bonne connaissance des questions de sécurité et de durcissement (firmware, OS, runtime), capacité à dialoguer avec une chaîne SSI.
- Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité.
- Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques
- Ancreé dans une culture d'analyse factuelle et d'amélioration continue ;
Atouts appréciés
- Expérience d'environnements multi-sites / multi-régions ;
- Expérience avec des environnements air-gapped ;
- Connaissance de SecNumCloud et IGI 1300 ;