Stage - Développeur IA / Data Science F/H
Framatome recherche un(e) stagiaire de fin d’études pour concevoir et développer un outil d’analyse automatique de fichiers Excel basé sur des agents IA, en utilisant LangChain, LangGraph et des briques classiques de data science (Pandas, NumPy, Scikit‑learn…).
Contexte & objectifs du stage
Les fichiers Excel métiers sont souvent volumineux, multi‑feuilles, hétérogènes et parfois mal structurés (lignes ou colonnes à ignorer, sens de lecture non standard, etc.).
- Mauvaise gestion des questions de type « Combien… ? » ou « Quelle moyenne… ? »
- Difficultés avec les fichiers très volumineux
- Parsers génériques insuffisants dès que la structure devient complexe
Objectifs du projet
- Comprendre la structure d’un fichier Excel
- Mapper la requête utilisateur aux bonnes feuilles / colonnes / lignes
- Charger les données dans des dataframes Python de manière contrôlée
- Sélectionner et exécuter automatiquement les analyses pertinentes (corrélations, tests d’hypothèses, régressions, classifications, clustering…)
- Synthétiser les résultats de manière claire, fiable et exploitable
Missions principales
- Conception de l’architecture multi‑agents
- Définir, avec le Tech Lead, une architecture d’agents IA basée sur LangGraph / LangChain :
- Agent 1 – Inspecteur Excel : détection des feuilles, noms de colonnes, types de données, lignes/colonnes à ignorer, statistiques descriptives
- Agent 2 – Interprétation de la requête utilisateur : mise en correspondance requête ↔ structure Excel
- Agent 3 – Chargement des données : lecture contrôlée dans un dataframe (Pandas / Polars / Dask) selon les consignes des agents précédents
- Agent 4 – Génération de requêtes / transformations : construction de requêtes d’agrégation, filtrage, groupby, etc.
- Agent 5 – Exécution des analyses : lancement des calculs et extraction des lignes/colonnes pertinentes, utilisation des outils ML préalablement développés
- Agent 6 – Synthèse & réponse : agrégation des résultats et génération d’une réponse claire à l’utilisateur
- Définir les interfaces entre agents, les formats d’échange (schemas, JSON, Pydantic) et les garde‑fous (limites de taille, validation des requêtes, etc.)
- Développement des outils d’analyse automatique
- Implémenter les fonctions d’analyse statistique et de machine learning sur les fichiers Excel
- Intégrer et industrialiser le pipeline multi‑agents pour une utilisation robuste et répétable
- Documenter les modules et rédiger des guides
Profil
Vous préparez un diplôme de niveau Bac +5 pour un stage de fin d’études, idéalement en école d’ingénieur ou en master spécialisé en IA, Data Science, Mathématiques appliquées ou Informatique avec forte composante data.
Vous possédez une excellente maîtrise de Python, y compris les structures de données, la programmation orientée objet, le typage, les tests unitaires et le packaging. Vous avez de solides bases en Machine Learning supervisé et non supervisé, statistiques et modélisation, et un intérêt marqué pour les LLM, LangChain, LangGraph et les systèmes multi‑agents.
Compétences techniques recherchées
- Python avancé : structuration, PEP8, typage (typing), tests unitaires (pytest), gestion d’environnements, packaging basique
- Data & Machine Learning : Pandas, NumPy, Scikit‑learn (régression, classification, clustering, métriques), bases en statistiques (tests d’hypothèses, corrélations, distributions)
- LLM & Agents : LangChain, LangGraph (ou forte motivation pour les apprendre rapidement), notions de function calling / tools pour LLM
- Excel & parsing : lecture de fichiers Excel (Pandas, openpyxl), gestion de structures complexes (multi‑feuilles, en‑têtes multiples)
- Bonnes pratiques : Git, revue de code, documentation (Markdown, éventuellement Sphinx), notions de CI/CD et conteneurisation (Docker) appréciées
Ce que vous allez apprendre / y gagner
- Concevoir un système multi‑agents IA de bout en bout sur un cas d’usage concret et exigeant
- Approfondir votre maîtrise de LangChain / LangGraph, de la data science appliquée (statistiques, ML, parsing robuste) et de la mise en production d’outils IA (qualité de code, robustesse, garde‑fous)
- Travailler au cœur d’un environnement industriel de pointe (nucléaire) avec de vrais besoins métiers
- Valoriser un projet de fin d’études structurant, à forte valeur ajoutée pour votre future carrière (IA appliquée, MLOps, LLMOps)