Chargement en cours

Site Reliability Engineer - Object Storage - N H/F

ROUBAIX, 59
il y a 2 jours

Site Reliability Engineer - Object Storage (H/F/N)

POSTE : Site Reliability Engineer - Object Storage

Responsabilités

  • Utiliser et intégrer des assistants de code IA (et des agents IA dans les workflows) pour améliorer le monitoring, l’alerting et la détection d’incidents sur les plateformes Object Storage.
  • Concevoir et intégrer des agents intelligents capables d’assister ou d’automatiser les workflows de résolution d’incidents et d’amélioration continue.
  • Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l’automatisation pilotée par ces agents et par vos procédures.
  • Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage; suivre les indicateurs de performance et participer à leurs améliorations.
  • Assurer que les clients reçoivent un support technique complet lorsqu’il est nécessaire et mettre en œuvre, appliquer et automatiser les procédures pour résoudre les problèmes courants.
  • Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d’alerting, avec une intégration fluide des agents et des outils d’IA dans l’infrastructure existante et les projets futurs.
  • Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
  • Suivre l’adoption des produits et les usages clients, et collaborer avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
  • Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d’incident.

Impact attendu

  • Après 6 mois : monter en compétences sur l’environnement technique des clusters Object Storage et contribuer à l’évolution (automatisation, supervision, industrialisation, corrections techniques).
  • Participer en binôme aux cycles de RUN des plateformes (traitement de demandes clients, traitement des alertes) et découvrir les différents usages de nos produits par nos clients.
  • Après 1 an : devenir un moteur d’amélioration continue, participer aux évolutions majeures des solutions, aux cycles d’astreintes SRE, aux cycles de RUN en autonomie.

Profil requis

  • Avoir une bonne maîtrise de l’administration GNU/Linux.
  • Expérience en intégration/utilisation d’agents IA (LLM) dans le travail quotidien.
  • Maîtrise d’un ou plusieurs langages de scripting (Python).
  • Expérience en automatisation et déploiement (Puppet, Ansible).
  • Expérience sur des architectures microservices complexes.
  • Maîtrise des outils de supervision et d’observabilité (Icinga/Prometheus/Alertmanager).
  • Expérience en orchestration d’infrastructure à grande échelle (Temporal).
  • Connaissance des API AWS S3.
  • Expérience sur gros volumes de données.

Type de contrat

CDI – Contrat travail

#J-18808-Ljbffr
Entreprise
OVHCloud
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès