Stage en data science - Traitement Automatique des Langues F/H
votre rôle
Sujet du stage : Analyse de la structure de documents complexes pour leur traitement par des LLMs
Avec l’émergence des Large Language Models et des capacités de raisonnement induites par les frameworks d’IA agentique, les cas d’usage impliquant des documents complexes et des documents visuellement riches (en anglais visually rich documents) se développent au sein des entreprises. La simple extraction du texte contenu dans ces documents est limitante et il est bien souvent essentiel d’en extraire la structure et l’ensemble des informations qu’ils contiennent au-delà du texte (tableaux, graphiques, etc..). Cette analyse est fondamentale pour que ces documents puissent être exploités par des systèmes en aval.
Certains documents, au-delà de leur structure intrinsèque complexe, présentent également la propriété d’évoluer dans le temps (documents de régulation, de spécification technique, contrats avec avenants, …) et il est important de pouvoir comparer efficacement les différentes versions d’un même document.
L'objectif du stage sera de mettre en place un système permettant d'analyser et de comparer de manière fine des documents qui peuvent être "complexes" du fait de leur mise en page, leur typographie ou encore la présence de tableaux ou d'illustrations. Vous serez amené à explorer des problématiques se rapportant à la détection de zones d'intérêt dans des documents (structure ou contenu sémantique) ainsi que leur exploitation pour mettre en évidence des différences entre plusieurs versions d'un même document [1] ou encore entre des documents de même nature mais provenant d'acteurs différents (par exemple des textes législatifs, des contrats etc.). Une piste à explorer sera la représentation d’un document sous forme de graphe, en s’inspirant par exemple de travaux récents [2], qui font appel à des modèles multimodaux (pouvant traiter à la fois du texte et des images) adaptés à cette tâche de compréhension des documents. Vous pourrez aborder des questions comme : comment aligner des parties similaires entre deux documents ? Comment identifier des éléments présents dans un document, mais absents dans un autre ? Comment restructurer des documents selon une norme commune (notion de conformité) ? Comment évaluer de manière fiable la performance d'un potentiel système répondant aux questions présentes ci-dessus ?
[1] Santosh T.y.s.s, Natwar Modani, and Apoorv Saxena. (2024). A Tale of Two Revisions: Summarizing Changes Across Document Versions. In Findings ACL 2024, Bangkok, Thailand.
[2] Chen, Y., Liu, R., Zheng, J., Wen, D., Peng, K., Zhang, J., & Stiefelhagen, R. (2025). Graph-based Document Structure Analysis. ICLR 2025, Singapour.
votre profil
Profil attendu,
- Stage de fin d’études de master ou d’école d’ingénieur (Bac+5) en informatique ou data science avec une composante machine learning
- Appétence pour une démarche orientée recherche
- Compétences en deep learning
- Appétence pour le traitement automatique des langues
- Compétences Linux, Shell, Python, Slurm
le plus de l'offre
Ce stage s'inscrit dans le contexte de nos travaux sur l'analyse de documents complexes en mobilisant les technologies d'IA les plus avancées (modèle de raisonnement, IA agentique...)
entité
La direction Data & IA, au sein de l’entité Orange Innovation, a pour ambition de développer l’usage de la Data et de l’Intelligence Artificielle, en étroite collaboration avec les pays sur leurs cas d’usages et leurs besoins métier, tout en maintenant son niveau d’expertise élevé grâce à la recherche.
Dans cette direction, l’équipe DESKIN développe des produits et des services à base de technologies d’Intelligence Artificielle (IA), et d’IA Générative pour le traitement automatique du langage naturel.
Plus précisément, les missions de l’équipe DESKIN sont :
1. Développer des outils d’IA multilingues, concevoir des solutions complètes de traitement, de manipulation, d’évaluation et visualisation de données textuelles à destination des directions métiers d’Orange, en utilisant les dernières technologies et modèles d’IA Génératives (exemple avec Visual CRM),
2. Accompagner les équipes métiers pays dans l’analyse de données textuelles et conversationnelles, pour des besoins Orange ou des besoins de clients externes,
3. Mener des travaux de recherche et d’anticipation pour développer ou adapter de nouvelles technologies d’IA adaptées aux contenus textuels.
L’équipe rassemble des compétences et métiers complémentaires : chercheur.e, doctorant.e, architecte, ingénieur.e logiciel, data scientist, intégrateur.