Postuler

Site Reliability Engineer - Object Storage F/H/N

ROUBAIX, 59

il y a 7 jours

Processus de recrutement

Échange avec notre Talent Acquisition Specialist : Arthur
Entretien avec le Manager : Sébastien
Cas pratique (si pertinent)
Rencontre avec un pair, un membre de l'équipe ou de la direction
Débriefing ensemble

Avantages

Politique de télétravail hybride
Plan d'actionnariat salarié
Programme de reconnaissance de l'ancienneté
Subventions vacances et sport
Berceau et crèche d'entreprise (selon site)
Équipes multiculturelles
Locaux bien équipés
Plateforme de formation et de certification en ligne
Offre d'accompagnement médical et social digitalisée pour vous et votre famille

OVHcloud valorise la diversité des personnes qu’elle embauche et accompagne. La diversité pour nous, c’est favoriser un milieu de travail où les différences individuelles sont reconnues, appréciées et respectées de façon à développer le plein potentiel et les forces de chacune et chacun. Soyez libre d’être vous-même!

L'intelligence artificielle réinvente nos métiers au quotidien. Rejoignez-nous pour explorer ses immenses possibilités et coconstruire l'avenir!

Nous savons que les femmes peuvent parfois s'abstenir de postuler si elles ne répondent pas à 100% des critères d'une offre. Nous souhaitons clarifier : nos fiches de poste sont des repères, pas des barrières. Nous avons hâte de recevoir votre candidature.

Au sein de votre équipe #OneTeam

Vous évoluerez au sein de l'Unité Object Storage qui gère l'ensemble des offres du même nom chez OVHcloud et dont l'ambition est de construire l'offre la plus performante et efficace du marché.
En tant que Site Reliability Engineer dans ce département, afin de renforcer nos équipes et d'accélérer notre croissance, vous nous accompagnerez dans l'évolution, l'industrialisation et le maintien en condition opérationnelle de l'ensemble de nos produits.

Vos principales responsabilités

Améliorer les usages d'agents IA (assistants, automatisations) pour optimiser le monitoring, l'alerting et la détection d'incidents sur les plateformes Object Storage.
Concevoir et intégrer des agents intelligents capables d'assister ou d'automatiser les workflows de résolution d'incidents et d'amélioration continue.
Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l'automatisation pilotée par ces agents et par vos procédures.
Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage ; vous suivez les indicateurs de performance et participez à leurs améliorations.
Assurer que les clients reçoivent un support technique complet lorsque c'est nécessaire et vous mettez en œuvre, appliquez et automatisez les procédures pour résoudre les problèmes courants.
Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d'alerting, avec une intégration fluide des agents et des outils d'IA dans l'infrastructure existante et les projets futurs.
Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
Suivre l'adoption des produits et les usages clients, et vous collaborerez avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d'incident.

Votre futur impact

Dans 6 mois vous

Vous serez monté en compétences sur l'environnement technique de nos clusters Object Storage et aurez contribué à le faire évoluer (Automatisation, Supervision, Industrialisation, fix techniques ...).
Vous aurez participé en binôme aux cycles de RUN de nos plateformes (traitement de demandes clients, traitement des alertes).
Vous aurez découvert les différents usages de nos produits par nos clients.

Et dans 1 an vous

Vous serez un élément moteur dans nos process d'amélioration continue.
Vous participerez aux évolutions majeures de nos solutions.
Vous participerez aux cycles d'astreintes de notre équipe SRE.
Vous participerez aux cycles de RUN en autonomie.

Compétences requises

Vous êtes à l'aise en administration GNU/Linux.
Expérience en intégration / utilisation d'agents IA (LLM) dans votre travail quotidien.
Vous maîtrisez un ou plusieurs langages de scripting (Python).
Vous avez une expérience en automatisation et déploiement (Puppet, Ansible).
Vous avez déjà travaillé sur des architectures micro services complexes.
Vous maîtrisez les outils de supervision et d'observabilité (Icinga / Prometheus / Alertmanager).
Vous avez fait de l'orchestration d'infrastructure à grande échelle (Temporal).

C'est un +

Vous avez une connaissance des API AWS S3.
Vous avez déjà travaillé sur des gros volumes de données.

#J-18808-Ljbffr

Entreprise

OVH GmbH

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

Contrôleur de gestion sociale h/f

CERGY, 95

il y a 7 jours

Stage AI Developer - Hardware team H/F/N

CROIX

il y a 7 jours

consultant(e) en solutions de gestion financière Pennylane - CDI (H/F)

LILLE, 59

il y a 7 jours

consultant(e) en solutions de gestion financière Pennylane - CDI (H/F)

BORDEAUX, 33

il y a 7 jours