Thèse Multi-Agent Reinforcement Learning Dialogue Grounding Reasoning

LANNION, 22

il y a 14 jours

About the Division

L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial. Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes de Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.

Role Overview

Au sein de Innovation, vous serez intégré(e) dans la direction Data & AI. Cette direction a pour principale mission de faire d'Orange une entreprise « data driven » qui définit les standards du Groupe en matière de data et d'intelligence artificielle, et qui facilite le développement des cas d'usage, des produits et services de données. Cette direction est appelée à accompagner l'ensemble du groupe Orange.

Research Context

Since their breakthrough in 2022, Large Language Models (LLMs) are transforming our daily lives. However, they still struggle with reliable reasoning and planning, often neglecting the grounding‑the process by which interlocutors ensure mutual understanding. These limitations cannot be fully addressed by prompting techniques alone (e.g., chain‑of‑thoughts, ReAct). They are even more pronounced in Small Language Models (LMs), whose limited parameters restrict their generalization.

Reinforcement Learning from Human Feedback (RLHF) has proven effective in reducing hallucinations and improving reasoning in LLMs (notably with DeepSeek), but it is less efficient for small LMs. This has led to increased interest in Multi‑agent Reinforcement Learning (MRL) as a promising alternative.

This thesis proposes to study MRL by decomposing complex conversational tasks into three sub‑tasks: grounding, reasoning, and planning, focusing on small LMs.

Key challenges include identifying the optimal task decomposition, designing effective reward functions, and evaluating their performance. By cooperating, specialized agents can overcome individual limitations to solve complex tasks.

Objectives

Adjusting the weights of specialized LM agents working collaboratively in a multi‑agent environment, going beyond traditional prompting, RAG, or fine‑tuning.
Applying MRL to public benchmarks and Orange's use cases (e.g., resolving network or product issues).

Skills (Technical and Scientific) and Soft Skills

Vous avez de l'expérience dans les domaines de l'Intelligence Artificielle, du Machine Learning et plus particulièrement dans le deep learning.
Vous possédez une solide formation en mathématiques (optimisation numérique, statistiques, probabilité, etc.).
Vous êtes compétent en développement logiciel.
Vous êtes compétent en lecture, rédaction et expression orale en anglais.
Vous êtes curieux, attiré par les nouvelles technologies et prêt à suivre leurs évolutions. Vous aimez travailler en équipe, dans des projets multidisciplinaires et contribuer à un objectif commun, tout en restant autonome dans vos activités.
Vous disposez de bonnes compétences analytiques et de synthèse.
La maîtrise d’un des outils de deep learning suivants est souhaitée : Torch, PyTorch, TensorFlow, MXNet.
Vous aimez communiquer les résultats de votre travail par des rapports écrits et des présentations orales, de préférence en anglais.

Required Training

Diplôme d'ingénieur et/ou Master de recherche, avec connaissance en machine learning et dans au moins un des domaines listés ci‑dessus.

Desired Experience

Une première expérience dans la mise en œuvre d'algorithmes de deep learning (par exemple dans le cadre d'un stage) serait souhaitée.

Ref :

#J-18808-Ljbffr

Entreprise

Orange

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

PhD 'Multimodal Multi-Hop Reasoning for Video Analysis' F/H

CAOUËNNEC- ANVÉZÉAC

il y a 15 heures

AI Talent Pool Nouveau

PARIS, 75

il y a 14 jours

AI Talent Pool Neu

PARIS, 75

il y a 5 jours

Research Scientist — Neuro-Symbolic AI

PARIS, 75

il y a 14 jours