Postuler

Site Reliability Engineer - Object Storage - N H/F

ROUBAIX, 59

il y a 2 jours

Site Reliability Engineer - Object Storage (H/F/N)

POSTE : Site Reliability Engineer - Object Storage

Responsabilités

Utiliser et intégrer des assistants de code IA (et des agents IA dans les workflows) pour améliorer le monitoring, l’alerting et la détection d’incidents sur les plateformes Object Storage.
Concevoir et intégrer des agents intelligents capables d’assister ou d’automatiser les workflows de résolution d’incidents et d’amélioration continue.
Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l’automatisation pilotée par ces agents et par vos procédures.
Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage; suivre les indicateurs de performance et participer à leurs améliorations.
Assurer que les clients reçoivent un support technique complet lorsqu’il est nécessaire et mettre en œuvre, appliquer et automatiser les procédures pour résoudre les problèmes courants.
Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d’alerting, avec une intégration fluide des agents et des outils d’IA dans l’infrastructure existante et les projets futurs.
Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
Suivre l’adoption des produits et les usages clients, et collaborer avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d’incident.

Impact attendu

Après 6 mois : monter en compétences sur l’environnement technique des clusters Object Storage et contribuer à l’évolution (automatisation, supervision, industrialisation, corrections techniques).
Participer en binôme aux cycles de RUN des plateformes (traitement de demandes clients, traitement des alertes) et découvrir les différents usages de nos produits par nos clients.
Après 1 an : devenir un moteur d’amélioration continue, participer aux évolutions majeures des solutions, aux cycles d’astreintes SRE, aux cycles de RUN en autonomie.

Profil requis

Avoir une bonne maîtrise de l’administration GNU/Linux.
Expérience en intégration/utilisation d’agents IA (LLM) dans le travail quotidien.
Maîtrise d’un ou plusieurs langages de scripting (Python).
Expérience en automatisation et déploiement (Puppet, Ansible).
Expérience sur des architectures microservices complexes.
Maîtrise des outils de supervision et d’observabilité (Icinga/Prometheus/Alertmanager).
Expérience en orchestration d’infrastructure à grande échelle (Temporal).
Connaissance des API AWS S3.
Expérience sur gros volumes de données.

Type de contrat

CDI – Contrat travail

#J-18808-Ljbffr

Entreprise

OVHCloud

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

SRE - AI-Driven Object Storage & Automation

ROUBAIX, 59

il y a 2 jours

SRE (DataPlatform)

PARIS, 75

il y a 2 jours

SRE - DataPlatform

PARIS, 75

il y a 2 jours

AI Platform Engineer / GenAI Platform Architect – Azure H-F (IT) / Freelance

PARIS, 75

il y a 2 jours