Chargement en cours

Site Reliability Engineer - Object Storage F/H/N

ROUBAIX, 59
il y a 7 jours

Processus de recrutement

  • Échange avec notre Talent Acquisition Specialist : Arthur
  • Entretien avec le Manager : Sébastien
  • Cas pratique (si pertinent)
  • Rencontre avec un pair, un membre de l'équipe ou de la direction
  • Débriefing ensemble

Avantages

  • Politique de télétravail hybride
  • Plan d'actionnariat salarié
  • Programme de reconnaissance de l'ancienneté
  • Subventions vacances et sport
  • Berceau et crèche d'entreprise (selon site)
  • Équipes multiculturelles
  • Locaux bien équipés
  • Plateforme de formation et de certification en ligne
  • Offre d'accompagnement médical et social digitalisée pour vous et votre famille

OVHcloud valorise la diversité des personnes qu’elle embauche et accompagne. La diversité pour nous, c’est favoriser un milieu de travail où les différences individuelles sont reconnues, appréciées et respectées de façon à développer le plein potentiel et les forces de chacune et chacun. Soyez libre d’être vous-même!

L'intelligence artificielle réinvente nos métiers au quotidien. Rejoignez-nous pour explorer ses immenses possibilités et coconstruire l'avenir!

Nous savons que les femmes peuvent parfois s'abstenir de postuler si elles ne répondent pas à 100% des critères d'une offre. Nous souhaitons clarifier : nos fiches de poste sont des repères, pas des barrières. Nous avons hâte de recevoir votre candidature.

Au sein de votre équipe #OneTeam

  • Vous évoluerez au sein de l'Unité Object Storage qui gère l'ensemble des offres du même nom chez OVHcloud et dont l'ambition est de construire l'offre la plus performante et efficace du marché.
  • En tant que Site Reliability Engineer dans ce département, afin de renforcer nos équipes et d'accélérer notre croissance, vous nous accompagnerez dans l'évolution, l'industrialisation et le maintien en condition opérationnelle de l'ensemble de nos produits.

Vos principales responsabilités

  • Améliorer les usages d'agents IA (assistants, automatisations) pour optimiser le monitoring, l'alerting et la détection d'incidents sur les plateformes Object Storage.
  • Concevoir et intégrer des agents intelligents capables d'assister ou d'automatiser les workflows de résolution d'incidents et d'amélioration continue.
  • Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l'automatisation pilotée par ces agents et par vos procédures.
  • Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage ; vous suivez les indicateurs de performance et participez à leurs améliorations.
  • Assurer que les clients reçoivent un support technique complet lorsque c'est nécessaire et vous mettez en œuvre, appliquez et automatisez les procédures pour résoudre les problèmes courants.
  • Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d'alerting, avec une intégration fluide des agents et des outils d'IA dans l'infrastructure existante et les projets futurs.
  • Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
  • Suivre l'adoption des produits et les usages clients, et vous collaborerez avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
  • Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d'incident.

Votre futur impact

Dans 6 mois vous

  • Vous serez monté en compétences sur l'environnement technique de nos clusters Object Storage et aurez contribué à le faire évoluer (Automatisation, Supervision, Industrialisation, fix techniques ...).
  • Vous aurez participé en binôme aux cycles de RUN de nos plateformes (traitement de demandes clients, traitement des alertes).
  • Vous aurez découvert les différents usages de nos produits par nos clients.

Et dans 1 an vous

  • Vous serez un élément moteur dans nos process d'amélioration continue.
  • Vous participerez aux évolutions majeures de nos solutions.
  • Vous participerez aux cycles d'astreintes de notre équipe SRE.
  • Vous participerez aux cycles de RUN en autonomie.

Compétences requises

  • Vous êtes à l'aise en administration GNU/Linux.
  • Expérience en intégration / utilisation d'agents IA (LLM) dans votre travail quotidien.
  • Vous maîtrisez un ou plusieurs langages de scripting (Python).
  • Vous avez une expérience en automatisation et déploiement (Puppet, Ansible).
  • Vous avez déjà travaillé sur des architectures micro services complexes.
  • Vous maîtrisez les outils de supervision et d'observabilité (Icinga / Prometheus / Alertmanager).
  • Vous avez fait de l'orchestration d'infrastructure à grande échelle (Temporal).

C'est un +

  • Vous avez une connaissance des API AWS S3.
  • Vous avez déjà travaillé sur des gros volumes de données.
#J-18808-Ljbffr
Entreprise
OVH GmbH
Plateforme de publication
WHATJOBS
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès