Chargement en cours

Data Engineer

PARIS, 75
il y a 1 jour

Contexte d’activités et organisation de la cohorte

La cohorte Constances est un échantillon de 220 000 volontaires âgés de 18 à 69 ans à l’inclusion ( L’inclusion des volontaires se fait dans des Centres d’Examens de Santé. Le suivi longitudinal, sans limitation de durée, s’effectue : (1) par un auto-questionnaire annuel et une invitation régulière dans les Centres pour des examens biomédicaux et (2) dans les bases de données administratives nationales socioprofessionnelles et de santé. En plus de ce suivi, des données d’enrichissement via des questionnaires spécifiques (problèmes dermatologiques, expositions aux rayonnements ionisants…) et des appariements à des données d’expositions professionnelles ou environnementales.

Missions et responsabilités

Au sein du pôle Infrastructure numérique et gestion des flux de données, il (elle) aura pour missions principales la gestion de la base de données Constances sur son périmètre, le maintien et le développement de l’interface d’analyse et de pilotage de la cohorte.

Activités principales

Gestion de la base de données

  • Responsable de l’intégration des données de son périmètre
  • Mise en place des outils pour l’intégration des données
  • Suivi des rejets
  • Documentation des programmes et process mis en place
  • Amélioration continue des process et programmes
  • Evolutions / corrections de la base de données en fonction des demandes métiers (nouvelles variables, nouvelles tables…)
  • Participation à la migration des programmes d’intégration de données de SAS en Python
  • Pilotage de l’automatisation des pipelines sous Prefect

Responsable de l’interface d’analyse et de pilotage de la cohorte (la DataApp)

Cette interface, développée sous Streamlit, centralise les flux de données issus du DatalaLake (MariaDB) et d’APIs diverses.

  • Maintenir la fluidité de l’outil et corriger les bugs
  • Intégrer des nouvelles sources de données
  • Être force de proposition sur de nouvelles utilisations

Participation à des projets divers incluant le SI : la gouvernance de la donnée, projet de documentation de métadonnées…

Compétences

  • Maîtrise de Python et de son écosystème data (Pandas, NumPy), la connaissance de SAS serait un plus
  • Bonne maîtrise des systèmes de gestion de bases de données (MySQL, MariaDB)
  • Expérience dans la gestion de notre outil d’orchestration de workflows (Prefect )
  • Compétences en data visualisation (conception de tableaux de bord, restitution claire des données)
  • Maîtrise des outils de versioning (Git)
  • Bonne connaissance des environnements Windows et Linux
  • Sensibilité aux enjeux de sécurité des données et des systèmes

Savoir-être

  • Respect strict de la confidentialité des données et de leur bonne utilisation
  • Esprit d’initiative, force de proposition et proactivité
  • Excellentes capacités de communication , y compris avec des interlocuteurs non techniques
  • Rigueur, sens de l’organisation et méthodologie
  • Bon relationnel et esprit d’équipe

Nature du contrat

  • 3 à 5 ans d’expérience
  • Salaire selon expérience
  • CDD d’une durée de 24 mois renouvelable à temps plein
  • Lieu de travail : UMS 11, Hôpital Paul Brousse, Villejuif
  • Engagement de confidentialité à prévoir
#J-18808-Ljbffr
Entreprise
Cohorte Constances
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès