Postuler

Relations de préférence pour les problèmes multi-objectifs // Preference relations for multi-ob[...]

PALAISEAU, 91

il y a 4 jours

Relations de préférence pour les problèmes multi-objectifs // Preference relations for multi-objective problems

Réf ABG- ADUM-69231 Sujet de Thèse

Télécom Paris

Lieu de travail Palaiseau - Ile-de-France - France

Intitulé du sujet Relations de préférence pour les problèmes multi-objectifs // Preference relations for multi-objective problems

Mots clés Preference relations, multi-objective optimization, hierarchical objectives, multi-agent systems, game theory, temporal logic specifications

Description du sujet

Les systèmes multi-agents doivent lever conjointement les ambiguïtés — potentiellement conflictuelles — entre objectifs et critères. Trouver des stratégies approximativement optimales pour les systèmes multi-agents nécessite la résolution de problèmes multi-objectifs, souvent formulés sous forme d'objectifs pondérés. Cependant, les objectifs pondérés ne permettent pas d'imposer une hiérarchie stricte, ce qui peut conduire à des résultats indésirables, voire dangereux. Les relations de préférence entre objectifs et critères, en revanche, autorisent des hiérarchies strictes, préservant des propriétés importantes du comportement des agents qui ne devraient pas être négociées accidentellement lors de l'optimisation. Toutefois, l'introduction de relations de préférence entre plusieurs objectifs accroît la complexité computationnelle des problèmes d'optimisation en raison de la structure d'objectifs imbriqués qu'elles induisent.

Premièrement, les problèmes multi-agents se prêtent naturellement à une analyse en théorie des jeux, où les participants cherchent à atteindre des équilibres représentant des politiques optimales en équilibrant leurs préférences et celles des autres.
Deuxièmement, en raison de la difficulté d'introduire l'incertitude de l'environnement dans le cadre classique de la théorie des jeux, la thèse étudiera les effets des relations de préférence dans les processus de décision Markoviens et examinera les aspects de modélisation et de calcul du point de vue de l'ordonnancement de formules de logique temporelle.
Enfin, le troisième axe portera sur l'application des relations de préférence au façonnage des récompenses en apprentissage par renforcement, avec l'hypothèse raisonnée que les préférences améliorent les performances par rapport à des structures de récompense simples.

Multiagent systems must jointly disambiguate—potentially conflicting—objectives and criteria. Finding approximate‑optimal strategies for multi‑agent systems requires the resolution of multi‑objective problems, which are often stated as weighted objectives. However, weighted objectives cannot enforce a strict hierarchy, which can subsequently result in undesired and hazardous outcomes. Preference relations on objectives and criteria instead admit strict hierarchies, preserving important agent behavior properties that should not be accidentally negotiated during optimization. However, introducing preference relations on multiple objectives increases the computational complexity of optimization problems due to the nested objective structure they induce.

The proposed thesis will work along three axes to make progress on the problems that arise in multi‑objective settings. First, multi‑agent problems are naturally amenable to game‑theoretic analysis, where participants strive to find equilibria that represent optimal policies as they balance their preferences and those of others. Second, due to the difficulty of introducing uncertainty in the environment in traditional game‑theoretic settings, the proposed thesis will study the effects of preference relations in Markov decision processes and will examine modeling and computational aspects from the perspective of ordering temporal logic sentences. Finally, the third axis will center on the application of preference relations for reward shaping in reinforcement learning, with the educated guess that preferences improve performance compared to simple reward structures.

Début de la thèse : 01/10/2026

Nature du financement

Précisions sur le financement

Appel anticipé*Concours IPP ou école membre*Financement d'un établissement public Français*

Présentation établissement et labo d'accueil

Télécom Paris

Etablissement délivrant le doctorat

Télécom Paris

Ecole doctorale

626 Ecole Doctorale de l'Institut Polytechnique de Paris

Profil du candidat

Solide formation en informatique, en robotique, en automatique ou en mathématiques appliquées ; familiarité avec l'optimisation et l'apprentissage par renforcement ; intérêt pour les systèmes multi‑agents, la théorie des jeux et les méthodes formelles (y compris les processus de décision markoviens et la logique temporelle). De solides compétences en programmation ainsi que la capacité à travailler à la fois sur des aspects théoriques et sur l'implémentation sont attendues. A strong background in computer science, robotics, control, or applied mathematics; familiarity with optimization and reinforcement learning; interest in multi‑agent systems, game theory, and formal methods (including Markov decision processes and temporal logic). Solid programming skills and the ability to work across theory and implementation are expected.

#J-18808-Ljbffr

Entreprise

Association Bernard Gregory

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

Integration and synchronization of digital twins for co-simulation

TOULOUSE, 31

il y a 5 jours

OFFRE DE STAGE GAME DESIGN

BÉZIERS, 34

il y a 5 jours

Game Release Manager (F/M)

PARIS, 75

il y a 5 jours

Mapping gangs in the caribbean

REMOTE

il y a 5 jours