Stage - Data engineer Modernisation plateforme data (Orchestration & Streaming) H/F
Ta mission
Intégré(e) à l’équipe Voltalis Data Platform (VDP), une équipe de 5 data engineers et analytics engineers, tu travailleras sur deux chantiers structurants pour l’évolution de notre infrastructure data.
Chez Voltalis, nous recevons quotidiennement des dizaines de millions de lignes de données issues de notre flotte de boîtiers connectés. Pour absorber cette croissance et améliorer la fraîcheur de nos données, la VDP engage deux transformations majeures — et tu en seras un contributeur clé (tu seras accompagné(e) par des data engineers seniors sur les deux projets).
Chantier 1 — Migration d’orchestrateur
Notre plateforme data s’appuie aujourd’hui sur Google Workflows pour orchestrer ses pipelines. Dans le cadre de ce stage, tu participeras à la migration vers un nouvel orchestrateur, pour gagner en observabilité, en expérience développeur et en automatisation.
Concrètement :
- Mettre en place l’outil (nous pensons déjà à Prefect, mais ce n’est pas encore validé)
- Auditer les pipelines existants et définir la stratégie de migration
- Développer et déployer les nouveaux workflows
- Assurer la transition progressive en production
Chantier 2 — Introduction du streaming
Aujourd’hui, notre plateforme fonctionne entièrement en batch. Pour réduire la latence sur certaines données critiques, tu contribueras à l’introduction de flux temps réel.
Concrètement :
- Concevoir l’architecture de streaming en articulation avec BigQuery
- Implémenter les premiers flux et les intégrer dans la stack existante
- Définir la stratégie de migration et l’implémenter
- Mettre en place le monitoring associé
Stack
Python · SQL · dbt core · BigQuery · GCS · Cloud Run · Google Workflows · Prefect · GitLab CI/CD
Exigences
- Bac+4/5 en cours (école d’ingénieur, master informatique, data engineering ou équivalent)
- Bonne maîtrise de Python
- Connaissance des concepts de pipeline de données et d’orchestration (Airflow, Prefect, ou similaire)
- Notions de SQL et de traitement de données en batch
- Curiosité pour les architectures de streaming (Kafka, Pub/Sub, Dataflow…)
- Capacité à travailler dans un environnement cloud (idéalement GCP / BigQuery)
- Autonomie, rigueur et envie de contribuer à des projets impactant la production