ALSL - Data Engineer (GCP) – Plateforme Data (IT) / Freelance
On cherche un(e) Data Engineer pour renforcer une équipe qui fait tourner la plateforme data au quotidien.Le sujet est très concret : ramener des données qui viennent de partout, les centraliser proprement, les rendre fiables, et garder une plateforme qui tient la charge (et qui ne casse pas en prod au premier pic).
Vous travaillerez avec un Product Owner, un Data Steward et d’autres data engineers. On est sur une logique : ingestion, standardisation, stockage, et tout ce qui va avec côté run (monitoring, reprise, sécurité, doc).
Vos missions :
Collecter et centraliser des sources hétérogènes (API, fichiers, bases, événements).
Construire des pipelines robustes : gestion des erreurs, reprises, backfills, alerting, qualité.
Développer les traitements en Python / SQL / Spark (volumes en hausse, donc on fait attention à la perf et aux coûts).
Orchestrer les flux avec Airflow.
Structurer le stockage sur Cloud Storage avec une approche Delta Lake (évolution de schémas, merge/upsert, partitionnement, rétention).
Industrialiser l’ensemble : Terraform / Terragrunt, GitLab CI/CD, environnements propres (dev/staging/prod).
Contribuer à la gouvernance et à la conformité : catalogage et métadonnées via Dataplex + documentation utile (pas un wiki fantôme).
Environnement technique :
Python, SQL, Spark
Airflow (orchestration)
GCP : BigQuery, Dataproc, Pub/Sub, Cloud Storage
Delta Lake
Terraform + Terragrunt
GitLab + GitLab CI/CD
Méthodes : Agile (Scrum/Kanban)
Profil candidat:On ne recherche pas quelqu’un qui “a déjà fait un peu de data”.On cherche un(e) Data Engineer qui a déjà fait tourner des pipelines en production.
Indispensable :
3 ans mini en Data Engineering, avec du run (prod, incidents, monitoring, stabilité).
Expérience solide sur GCP : BigQuery et, idéalement, Dataproc / PubSub / Cloud Storage.
Airflow en prod (DAGs, retries, backfill, alertes).
Python + SQL solides.
Spark (PySpark) sur de vraies volumétries.
Industrialisation : Terraform et pratique CI/CD (GitLab).
Gros plus :
Dataplex (catalog, tags/classification, gouvernance).
Terragrunt (multi-environnements, modules, state).
Delta Lake réellement utilisé (tables Delta, merge/upsert, schema evolution, retention/vacuum).