Stage en data science - Traitement Automatique des Langues F/H
votre rôle
Sujet : Adaptation du tokeniseur pour l’adaptation d’un LLM à une nouvelle langue
L’adaptation des modèles de langue à de nouvelles langues constitue un axe primordial pour un développement inclusif de l’intelligence artificielle. Cette adaptation présente des nombreux enjeux scientifiques, en particulier lorsque les ressources langagières sont limitées et/ou lorsque les langues sont essentiellement orales. Orange a entrepris des travaux sur l’adaptation des modèles de langue au Wolof et a l’ambition de les consolider et de les étendre à d’autres langues de son empreinte linguistique.
L’objectif du stage est d’investiguer l'effet de la tokenisation sur la qualité des modèles adaptés à partir d’un LLM openweight, notamment pour les langues dont la fertilité du tokeniseur original est haute. Les travaux consisteront en particulier à proposer de nouvelles approches pour l’adaptation du tokeniseur (quels tokens ajouter ? comment initialiser leur apprentissage ?...). Les approches proposées seront évaluées de façon intrinsèque à l’aide de métriques dédiées et de façon extrinsèque en mesurant les performances de modèles affinés (continuation du pré-apprentissage, affinage par instruction et préférence) intégrant les tokeniseurs proposés.
Des études devront être menées sur plusieurs langues de façon à pouvoir formuler des recommandations spécifiques pour chaque langue s’appuyant sur des résultats d’expériences tangibles. Les prochaines langues envisagées au-delà du Wolof sont le Darija marocain, le Lingala, le Swahili et le Bambara.
votre profil
En dernière année d’école d’ingénieur ou de master en intelligence artificielle avec une composante en apprentissage automatique et Traitement Automatique des Langues
- connaissances en deep learning et en adaptation de Large Language Models
- connaisances Python, Torch, tokenisation
un plus
- connaissance d'une des langues ciblées
le plus de l'offre
Ce sujet de stage est au cœur d'un sujet actuellement stratégique : le fine-tuning des modèles de langue. Dans le cadre d'un environnement pointu tel que les laboratoire de recherche d'Orange, il ouvre ainsi beaucoup de perspectives de carrière.
entité
La direction Data & IA, au sein de l’entité Orange Innovation, a pour ambition de développer l’usage de la Data et de l’Intelligence Artificielle, en étroite collaboration avec les pays sur leurs cas d’usages et leurs besoins métier, tout en maintenant son niveau d’expertise élevé grâce à la recherche.
Dans cette direction, l’équipe DESKIN développe des produits et des services à base de technologies d’Intelligence Artificielle (IA), et d’IA Générative pour le traitement automatique du langage naturel.
Plus précisément, les missions de l’équipe DESKIN sont :
1. Développer des outils d’IA multilingues, concevoir des solutions complètes de traitement, de manipulation, d’évaluation et visualisation de données textuelles à destination des directions métiers d’Orange, en utilisant les dernières technologies et modèles d’IA Génératives (exemple avec Visual CRM),
2. Accompagner les équipes métiers pays dans l’analyse de données textuelles et conversationnelles, pour des besoins Orange ou des besoins de clients externes,
3. Mener des travaux de recherche et d’anticipation pour développer ou adapter de nouvelles technologies d’IA adaptées aux contenus textuels.
L’équipe rassemble des compétences et métiers complémentaires : chercheur.e, doctorant.e, architecte, ingénieur.e logiciel, data scientist, intégrateur.