Data engineer Spark Scala H/F
Missions à réaliser
En tant que Data Engineer Senior PySpark, vous jouez un rôle clé dans la performance et la fiabilité des traitements de données à grande échelle. Vous êtes en charge de l’optimisation des pipelines existants et de l’organisation des activités de RUN & stabilisation, en veillant à prioriser les actions à forte valeur ajoutée dans un environnement Agile.
Secteurs
Services & Systèmes d'Informations
Votre rôle
Optimisation et refonte des pipelines data
- Auditer, refactorer et faire évoluer les modules de data engineering : Refining Covariates Modelling, Exposition
- Optimiser les pipelines PySpark pour améliorer les performances de traitement à grande échelle (partitioning, gestion des joins, cache, skew et volumétrie)
- Renforcer la modularité, la lisibilité, l’évolutivité et la scalabilité des pipelines
- Contribuer à la réduction de la dette technique et à la modernisation du legacy
Industrialisation et qualité des développements
- Structurer un framework flexible permettant l'ajout de nouvelles features et facilitant l’industrialisation des développements
- Mettre en place les tests unitaires, d’intégration et fonctionnels
- Formaliser des standards de développement
Stabilisation, RUN et amélioration continue
- Améliorer la stabilité des pipelines grâce au monitoring et à l’application des bonnes pratiques CI/CD
- Structurer et prioriser les actions de RUN et de stabilisation
- Définir et piloter un plan d'optimisation priorisé avec des gains mesurables
Passage à l’échelle et évolution de l’architecture data
- Adapter les pipelines pour un déploiement mondial / multi régions en tenant compte des enjeux de volumétrie et de passage à l’échelle
- Optimiser le ratio coût / performance des traitements
- Travailler en étroite collaboration avec les Data Scientists et les ML Engineers
Modalités
- Date de démarrage : dès que possible
- Candidats recherchés : 1
- Expérience : 7+ ans
- Type de contrat : CDI, Temps complet
- Rémunération : 55000 € - 65000 € par an selon expérience
- Localisation : Paris, France
- Télétravail partiel
Le profil recherché
Compétences requises
- Apache Spark, PySpark, Scala, databricks, AWS S3, Glue, Lambda, Redshift
- Compétences fonctionnelles et techniques : Solide maîtrise des principaux outils de data engineering : Databricks, PySpark, Python, Airflow et GitHub
- Bonne connaissance de l’écosystème AWS (S3, ECR et Glue)
- Connaissance de Docker, uv et Poetry
- Sensibilité aux méthodes Agile avec une connaissance Scrum appréciée
Qualités Personnelles
- Esprit analytique et sens de la résolution de problèmes
- Rigueur et capacité à prioriser / structurer les sujets
- Autonomie et force de proposition
- Esprit d’équipe et collaboration transverse
- Sens de l’amélioration continue
À propos de l'entreprise
ATLANSE se positionne comme le partenaire de votre évolution numérique, en plaçant la responsabilité et la durabilité au cœur de sa démarche. Nous optimisons la performance de votre système d’information, en nous appuyant sur notre ressource la plus précieuse : notre capital humain.
Les secteurs d'activité
Services & Systèmes d'Informations
Présentation
ATLANSE se positionne comme le partenaire de votre évolution numérique, en plaçant la responsabilité et la durabilité au cœur de sa démarche. Nous optimisons la performance de votre système d’information, en nous appuyant sur notre ressource la plus précieuse : notre capital humain.
Taille de l'entreprise
Entre 15 et 50 salariés
#J-18808-Ljbffr