Chargement en cours

Data Ingénieur Temps Plein - Stage Dans nos bureaux à Paris

PARIS, 75
il y a 5 jours

Un stage à temps plein où tu rejoins l’équipe développement de Diagonall pour construire des pipelines et fondations data fiables qui alimentent les projets IA des clients, avec une trajectoire possible vers un CDI si tu délivres fort.

En tant que Data Engineer stagiaire, tu rejoins l’équipe développement de Diagonall pour construire les fondations data qui rendent les projets IA possibles et robustes. Ton rôle est de rendre les données accessibles, fiables, traçables et prêtes pour la production, que ce soit pour de l’analytics, du machine learning ou des systèmes GenAI.

Tu travailleras sur des projets clients réels, avec des exigences fortes de qualité, sécurité et maintenabilité. Ce stage est à temps plein, et peut évoluer vers un CDI si tu délivres fort et que tu prends ownership.

Diagonall est un cabinet de conseil, formation et ingénierie IA. On conçoit des solutions sur mesure avec une gouvernance stricte : vos données, vos règles, votre SI.

Data pipelines et qualité

  • Construire et maintenir des pipelines d’ingestion et de transformation (batch, parfois near real time)
  • Nettoyer, normaliser, dédupliquer et fiabiliser les datasets
  • Mettre en place des contrôles qualité data (tests, validation, alerting)
  • Documenter les sources, schémas, règles de transformation, et conventions

Modélisation et exposition

  • Modéliser les données pour les usages (analytics, ML, GenAI)
  • Concevoir des datasets “consommables” et stables pour les équipes produit et IA
  • Exposer les données via tables, vues, APIs ou exports selon les besoins

GenAI et systèmes de retrieval

  • Préparer des données pour RAG et recherche (nettoyage, chunking, métadonnées, indexation)
  • Mettre en place des stratégies de rafraîchissement et de versioning des corpus
  • Collaborer avec les AI engineers sur la performance retrieval (qualité, latence, coût)
  • Participer à la mise en production (orchestration, CI/CD, monitoring, logs)
  • Gérer la traçabilité et la sécurité : permissions, accès, anonymisation si nécessaire
  • Améliorer la maintenabilité : code propre, structure, runbooks, bonnes pratiques

Ce qu'on recherche

Indispensable

  • Bases solides en Python et SQL
  • Compréhension claire de ce qu’est un pipeline data propre : reproductible, testable, observable
  • Rigueur sur la qualité, la documentation, et le “rendu prêt à l’usage”
  • Bon sens d’ingénierie : tu sais prioriser la robustesse plutôt que la magie

Ce qui fera la différence

  • Expérience avec un orchestrateur ou équivalent (Airflow ou similaire)
  • Confort avec Docker, Git, environnements cloud
  • Connaissances sur les architectures data (lake, warehouse, ELT, data contracts)
  • Familiarité avec dbt ou une logique de transformations modulaires
  • Expérience sur préparation de corpus pour RAG, vectorisation, indexation, métadonnées

Ce poste n’est pas pour toi si

  • Tu veux uniquement faire du notebook ou de l’exploration sans contraintes de prod
  • Tu n’aimes pas les sujets “plomberie” qui font pourtant gagner en vitesse et en fiabilité
  • Tu as du mal avec la rigueur, la documentation, et les tests
  • Tu n’aimes pas itérer vite et te faire challenger sur la qualité du rendu

Conditions et évolution

  • Stage à temps plein
  • Lieu : dans nos bureaux au coeur de Paris
  • Télétravail : 1 jour / semaine
  • Démarrage : dès que possible
  • Évolution : possibilité réelle de bascule en CDI en business development si tu délivres fort
#J-18808-Ljbffr
Entreprise
Diagonall
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
SAINT OUEN SUR SEINE
il y a 4 jours
ÎLE-DE-FRANCE
il y a 25 jours
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès