Site Reliability Engineer - Object Storage - N H/F
ROUBAIX, 59
il y a 2 jours
Site Reliability Engineer - Object Storage (H/F/N)
POSTE : Site Reliability Engineer - Object Storage
Responsabilités
- Utiliser et intégrer des assistants de code IA (et des agents IA dans les workflows) pour améliorer le monitoring, l’alerting et la détection d’incidents sur les plateformes Object Storage.
- Concevoir et intégrer des agents intelligents capables d’assister ou d’automatiser les workflows de résolution d’incidents et d’amélioration continue.
- Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l’automatisation pilotée par ces agents et par vos procédures.
- Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage; suivre les indicateurs de performance et participer à leurs améliorations.
- Assurer que les clients reçoivent un support technique complet lorsqu’il est nécessaire et mettre en œuvre, appliquer et automatiser les procédures pour résoudre les problèmes courants.
- Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d’alerting, avec une intégration fluide des agents et des outils d’IA dans l’infrastructure existante et les projets futurs.
- Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
- Suivre l’adoption des produits et les usages clients, et collaborer avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
- Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d’incident.
Impact attendu
- Après 6 mois : monter en compétences sur l’environnement technique des clusters Object Storage et contribuer à l’évolution (automatisation, supervision, industrialisation, corrections techniques).
- Participer en binôme aux cycles de RUN des plateformes (traitement de demandes clients, traitement des alertes) et découvrir les différents usages de nos produits par nos clients.
- Après 1 an : devenir un moteur d’amélioration continue, participer aux évolutions majeures des solutions, aux cycles d’astreintes SRE, aux cycles de RUN en autonomie.
Profil requis
- Avoir une bonne maîtrise de l’administration GNU/Linux.
- Expérience en intégration/utilisation d’agents IA (LLM) dans le travail quotidien.
- Maîtrise d’un ou plusieurs langages de scripting (Python).
- Expérience en automatisation et déploiement (Puppet, Ansible).
- Expérience sur des architectures microservices complexes.
- Maîtrise des outils de supervision et d’observabilité (Icinga/Prometheus/Alertmanager).
- Expérience en orchestration d’infrastructure à grande échelle (Temporal).
- Connaissance des API AWS S3.
- Expérience sur gros volumes de données.
Type de contrat
CDI – Contrat travail
#J-18808-Ljbffr
Entreprise
OVHCloud
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
ROUBAIX, 59
il y a 2 jours
PARIS, 75
il y a 2 jours
PARIS, 75
il y a 2 jours
PARIS, 75
il y a 2 jours