Chargement en cours

Software Engineer (HPC & Cloud)

PARIS, 75
il y a 3 jours

1 j/sem on-site + remote / Démarrage mi‑juin 2026

Contexte

Notre client — éditeur SaaS international — construit une plateforme de calcul distribué GPU‑accelerated sur AWS. L’objectif : exécuter des workloads de calcul intensif sur des GPUs partagés en mode service, à grande échelle. Le projet est 100 % greenfield. Les choix d’architecture sont posés, mais le code distribué n’est pas encore en production. L’équipe SRE centrale gère l’infrastructure sous‑jacent — ce rôle consiste à construire le tooling et la couche opérationnelle au-dessus.

Londres

1 j/sem on-site + remote / Démarrage mi‑juin 2026

Ce que tu vas construire

Fondations techniques de l’équipe

  • Les pipelines CI/CD et environnements de développement pour l’ensemble de l’équipe engineering dès le premier jour
  • Le provisioning et la gestion des instances GPU sur AWS (EC2, EKS, IAM, VPC)
  • Les outils de benchmarking GPU et de scheduling des runs de performance sur instances cloud

Observabilité de bout en bout

  • L’instrumentation complète des services distribués : distributed tracing de bout en bout avec propagation de contexte dans les messages Apache Pulsar, logs structurés, métriques de performance
  • Des dashboards de performance sur l’ensemble du cluster et des outils d’analyse comparative entre versions
  • Un framework de validation automatique des outputs GPU versus référence CPU (correction numérique)

Contexte distribué dans lequel tu interviens

L’équipe construit des services worker/consumer sur Apache Pulsar, des pipelines de données entre nœuds CPU, nœuds GPU et stockage haute performance (Lustre/FSx), avec des mécanismes de fault tolerance et back‑pressure sur des workloads de calcul intensif. Tu opères et instrumentes cette couche — tu n’en es pas le seul auteur, mais tu dois la comprendre en profondeur.

Environnement technique

Apache Pulsar

  • AWS (EC2, EKS, IAM, VPC)
  • Kubernetes
  • Lustre / FSx for Lustre
  • Go ou Rust
  • OpenTelemetry / Jaeger
  • Prometheus / Grafana
  • CI/CD

Profil recherché

Ce qu’on cherche vraiment :

  • Un ingénieur qui a construit du tooling de production pour des systèmes distribués — observabilité, CI/CD, benchmarking — pas uniquement de la configuration d’infra
  • Maîtrise de l’observabilité de bout en bout : distributed tracing (Jaeger, OpenTelemetry), métriques, logs structurés
  • Capacité à écrire du code robuste en Rust ou équivalent — ce rôle nécessite du software engineering, pas uniquement de l’IaC
  • AWS et Kubernetes en production
  • Anglais courant — l’équipe est internationale, basée à Londres

Signaux positifs :

  • Expérience messaging distribué — Kafka, Pulsar, RabbitMQ, NATS
  • Expérience GPU ou HPC : environnements de calcul intensif, benchmarking, stockage haute performance (Lustre, GPFS)
  • RDMA ou transport inter‑nœuds haute performance
  • Rust (un vrai plus)
  • Kubernetes Operator ou controller custom en Go
  • Contexte scale‑up / produit technique : gaming, fintech, SaaS B2B à grande échelle
#J-18808-Ljbffr
Entreprise
Groupe EOLEN
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
VILLEURBANNE, 69
il y a 2 jours
NANTES, 44
il y a 5 jours
BOULOGNE BILLANCOURT
il y a 2 jours
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès