Chargement en cours

STAGE - DéVELOPPEUR IA / DATA SCIENCE F/H (FRA-REC-2026-25740)

LYON, 69
il y a 2 jours

Framatome recherche un(e) stagiaire de fin d’études pour concevoir et développer un outil d’analyse automatique de fichiers Excel basé sur des agents IA, en utilisant LangChain, LangGraph et des briques classiques de data science (Pandas, NumPy, Scikit‑learn…).

L’objectif est de dépasser les limites des approches RAG classiques sur Excel et de construire un système robuste, modulaire et industrialisable, capable de comprendre la structure de fichiers complexes, sélectionner les données pertinentes et lancer automatiquement des analyses statistiques et de machine learning adaptées aux besoins des utilisateurs.

Contexte & objectifs du stage

Les fichiers Excel métiers sont souvent volumineux, multi‑feuilles, hétérogènes et parfois mal structurés (lignes ou colonnes à ignorer, sens de lecture non standard, etc.).

  • Les approches RAG classiques présentent rapidement des limites :
    • Mauvaise gestion des questions de type “Combien…?” ou “Quelle moyenne…?”
    • Difficultés avec les fichiers très volumineux
    • Parsers génériques insuffisants dès que la structure devient complexe

Framatome souhaite donc développer un outil dédié inspiré d’une architecture multi‑agents, capable de:

  • Comprendre la structure d’un fichier Excel
  • Mapper la requête utilisateur aux bonnes feuilles / colonnes / lignes
  • Charger les données dans des dataframes Python de manière contrôlée
  • Selectionner et exécuter automatiquement les analyses pertinentes (corrélations, tests d’hypothèses, régressions, classifications, clustering…)
  • Synthétiser les résultats de manière claire, fiable et exploitable

Missions principales

  1. Conception de l’architecture multi‑agents
    • Définir, avec le Tech Lead, une architecture d’agents IA basée sur LangGraph / LangChain:
      • Agent1– Inspecteur Excel: détection des feuilles, noms de colonnes, types de données, lignes/colonnes à ignorer, statistiques descriptives
      • Agent2– Interprétation de la requête utilisateur: mise en correspondance requête structure Excel
      • Agent3– Chargement des données: lecture contrôlée dans un dataframe (Pandas / Polars / Dask) selon les consignes des agents précédents
      • Agent4– Génération de requêtes / transformations: construction de requêtes d’agrégation, filtrage, groupby, etc.
      • Agent5– Exécution des analyses: lancement des calculs et extraction des lignes/colonnes pertinentes, utilisation des outils ML préalablement développés
      • Agent6– Synthèse & réponse: agrégation des résultats et génération d’une réponse claire à l’utilisateur
      • Définir les interfaces entre agents, les formats d’échange (schemas, JSON, Pydantic) et les garde‑fous (limites de taille, validation des requêtes, etc.)
  2. Développement des outils d’analyse automatique
    • Implémenter les fonctions d’analyse statistique et de machine learning sur les fichiers Excel
    • Intégrer et industrialiser le pipeline multi‑agents pour une utilisation robuste et répétable
    • Documenter les modules et rédiger des guides
#J-18808-Ljbffr
Entreprise
EDF France
Plateforme de publication
WHATJOBS
Offres pouvant vous intéresser
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès