Site Reliability Engineer (SRE) - Services managés PaaS
Numspot est la plateforme technologique souveraine et sécurisée, alliant innovation, flexibilité et confiance pour accélérer la transformation numérique des acteurs publics et privés. Hybride et portable, elle combine les avantages du cloud public avec une interopérabilité totale (on premise, cloud-environnements) et des standards de sécurité exigeants (ISO 27001 déjà acquis, HDS et SecNumCloud en cours).
Open source first, Numspot garantit autonomie, réversibilité et maîtrise des données, tout en répondant aux enjeux critiques de la data et de l’IA. 100 % immunisée contre les lois extraterritoriales, elle s’appuie sur un actionnariat français de référence des secteurs public et privé (Banque des Territoires, Docaposte, Dassault Systèmes et Bouygues Telecom), et des certifications reconnues pour offrir une confiance numérique absolue.
Descriptif du poste
NumSpot recrute un·e Site Reliability Engineer (SRE) confirmé·e pour fiabiliser et faire monter en puissance l’ensemble des services managés PaaS de sa plateforme cloud souveraine. Le rôle est au cœur de l’industrialisation : disponibilité, performance, et capacité à diagnostiquer vite quand ça bouge en production.
Votre mission : mettre en place et faire vivre les pratiques, l’outillage et les automatismes qui permettent aux équipes Engineering de livrer des services managés stables, observables et opérables, avec des objectifs de fiabilité mesurés.
Pourquoi maintenant : l’offre PaaS s’enrichit et se déploie. Pour tenir la trajectoire, la fiabilité doit être traitée comme un produit, avec des standards (SLI/SLO), des signaux (métriques, logs, traces) et des boucles d’amélioration continue.
L’équipe et le rôle
Vous travaillez au sein du département Engineering, en équipe avec les SRE, au contact direct des équipes de développement et des équipes en charge de l’exploitation. L’équipe Services Managés porte des services PaaS (dont Kubernetes et des bases de données managées) qui doivent être simples à consommer et robustes en production.
Dans ce rôle, vous intervenez à la fois sur le terrain (incidents, troubleshooting, amélioration de la production) et sur la structure (observabilité, automatisation, SLO, standards d’exploitation). Vous aidez à transformer des problèmes récurrents en actions concrètes : instrumentation, amélioration d’un runbook, automatisation d’une opération, ou durcissement d’une configuration.
Ce que vous ferez / Vos missions
L’objectif est de rendre les services managés plus fiables et plus faciles à opérer.
Fondations SRE (SLI/SLO, qualité de service)
- Définir, formaliser et suivre les SLIs/SLOs des services managés, avec des alertes alignées sur l’impact.
- Mettre en place des routines de revue de fiabilité (incidents, dette d’exploitation, actions priorisées).
Observabilité & diagnostic
- Implémenter et faire évoluer l’observabilité (métriques, logs, traces) et les tableaux de bord.
- Améliorer la capacité de diagnostic : signaux exploitables, corrélation, réduction du MTTR.
Automatisation & opérations
- Automatiser les déploiements et les opérations via IaC et GitOps.
- Concevoir et maintenir l’infrastructure des services managés PaaS, en gardant une approche reproductible et documentée.
- Optimiser performances et coûts d’infrastructure, avec des mesures et des arbitrages explicites.
Gestion d’incidents & amélioration continue
- Gérer les incidents (on‑call si applicable), conduire des post‑mortems factuels, et transformer les conclusions en actions.
- Travailler avec les équipes de développement pour améliorer la reliability (patterns, limites, garde‑fous, tests de résilience).
Profil recherché
Vous avez une expérience de SRE/DevOps en production sur des systèmes distribués et vous êtes à l’aise pour intervenir sur des environnements Kubernetes et des services managés. Vous savez prioriser entre une correction immédiate et une correction durable, et vous documentez ce qui rend l’exploitation plus simple pour toute l’équipe.
Essentiels
- Kubernetes en production : administration, troubleshooting, compréhension des composants.
- Expérience cloud providers et/ou environnements bare metal Kubernetes.
- Observabilité : Prometheus, Grafana, Loki, Tempo, OpenTelemetry.
- Infrastructure as Code : Terraform, Ansible, Helm.
- CI/CD et déploiements : GitLab CI, ArgoCD.
- Scripting et automatisation : Go, Python et/ou Bash.
- Expérience autour de bases de données managées (PostgreSQL, MongoDB, etc.).
- Bonnes bases sur stockage distribué et réseaux.
Atouts
- Certification CKA/CKS.
- Expérience sur des services managés (PaaS, DBaaS, KaaS…).
- Connaissance des exigences HDS / SecNumCloud.
- Background DevOps/SRE sur plateforme PaaS.
Votre trajectoire (projection)
À 1 mois
- Comprendre l’architecture des services managés PaaS, les dépendances critiques, et les flux d’exploitation.
- Cartographier les points de fragilité (incidents récents, alertes non actionnables, angles morts d’observabilité).
- Livrer des améliorations prioritaires (dashboards, alerting, runbooks, automatisation ciblée).
À 3 mois
- Prendre en charge un périmètre de fiabilité (SLO + alerting + plan d’amélioration) sur un ou plusieurs services.
- Diminuer les alertes non actionnables et améliorer la qualité des signaux.
- Contribuer à durcir les déploiements (GitOps/IaC) et à standardiser les pratiques d’exploitation.
À 6 mois
- Être autonome sur la gestion d’incidents majeurs et l’amélioration continue associée.
- Piloter des chantiers structurants (observabilité de bout en bout, résilience, capacity planning, optimisation coûts).
- Co-construire la roadmap fiabilité avec Engineering et Produit, en liant enjeux et métriques.
Savoir-faire essentiels :
Autonomie et proactivité
Capacité à travailler sans supervision directe tout en identifiant les axes d’amélioration.
Esprit critique
Être force de proposition sur les choix technologiques et organisationnels.
Collaboration efficace
Aptitude à collaborer avec des profils variés, en favorisant la cohésion et le partage de connaissances.
Communication claire
Expliquer des concepts complexes de manière simple et accessible.
Ce qui vous démarque
L’humilité
Nous privilégions les leaders capables de reconnaître la valeur des contributions des autres et de continuer à apprendre, peu importe leur expérience.
La solidarité
Nous encourageons un esprit d’entraide et de coopération entre les équipes, car nous croyons que le succès collectif surpasse les réalisations individuelles.
L’impact
Vous avez une passion pour développer des solutions qui répondent non seulement aux besoins des utilisateurs, mais qui contribuent également à la défense de l’intérêt général et impactent positivement la société.
L’amélioration continue
Vous êtes curieux(se) et toujours en quête d’innovation, que ce soit pour vous-même ou pour le produit.
Processus de recrutement
- Entretien avec notre recruteur pour comprendre votre parcours et vos motivations.
- Entretien avec l’Engineering Manager, le Staff Engineer et un SRE de l'équipe pour échanger sur la vision technique, les enjeux du poste et pour approfondir la dimension technique.
- Entretien final avec la DRH pour valider l’alignement global.