Post-doctorant·e en machine learning (H/F)
RESPONSABILITÉS :
Sujet : Apprentissage par renforcement profond pour résoudre des problèmes d'optimisation boîte noire
Les algorithmes à estimation de distribution (EDA) sont une alternative aux méthodes évolutionnaires classiques en optimisation stochastique. Plutôt que de manipuler directement des populations de solutions à l'aide d'opérateurs, ils apprennent une distribution de probabilité visant à modéliser les régions prometteuses de l'espace de recherche, en capturant explicitement les dépendances entre variables.
Dans le cadre du projet ANR COMBO, une nouvelle méthode appelée RL‑EDA a été proposée pour résoudre des problèmes d'optimisation combinatoire discrète de type boîte noire. Elle repose sur un modèle génératif autorégressif multivarié entraîné par apprentissage par renforcement, avec une propriété clé : l'invariance à l'ordre de génération des variables. Cette invariance est obtenue en échantillonnant des ordres de génération aléatoires durant l'entraînement, ce qui améliore la diversité des solutions générées et permet au modèle de se concentrer sur les dépendances réellement pertinentes. L'apprentissage utilise une adaptation de l'algorithme GRPO, garantissant des mises à jour stables grâce à des avantages relatifs invariants à l'échelle de la fonction objectif. Les résultats expérimentaux montrent que RL‑EDA surpasse fréquemment l'état de l'art sur de nombreuses instances de tailles et de natures diverses.
L'objectif du projet est d'étendre cette approche aux problèmes boîte noire combinant variables discrètes et continues, afin de disposer d'une méthode performante et générique, notamment pour la calibration d'hyperparamètres de réseaux de neurones. L'outil final sera diffusé en open source.
Le projet de postdoctorat est structuré en trois work packages.
- WP1 vise la création de benchmarks originaux pour l'optimisation boîte noire mixte, puis une comparaison des meilleures méthodes existantes.
- WP2 consiste à étendre RL‑EDA aux variables continues en adaptant le modèle génératif et l'apprentissage par renforcement, avant une évaluation comparative.
- WP3, plus exploratoire, étudiera de nouveaux processus de génération de solutions invariants à l'ordre, notamment via les GFlow
Nets ou les modèles de diffusion.
Vous pouvez télécharger la fiche de poste complète ici
You can download the job description here
PROFIL RECHERCHÉ :
Le candidat ou la candidate devra être titulaire d'un doctorat de moins de 3 ans- Le/la candidat·e doit avoir des bases dans les domaines de l'optimisation et du machine learning.
- Des connaissances dans les domaines de l'apprentissage par renforcement et de l'optimisation boîte noire seraient un plus.
- Le/la candidat·e doit être à l'aise en développement algorithmique avec le langage Python.
- Une connaissance de la librairie Pytorch pour le développement de réseaux de neurones serait appréciable.
- Le/la candidat·e doit avoir une capacité à travailler en équipe avec les différents intervenants du projet.
- ll/elle doit être motivé·e et appliqué·e dans son travail.
--
Poste ouvert uniquement aux contractuels
Catégorie/corps : Post doctorant·e
Diplôme minimum requis : Bac+8
Type de contrat et durée : CDD de 12 mois
Rémunération brute mensuelle : entre 2800€ et 2900€ brut
Date de prise de poste souhaitée : 01/09/2026
Quotité de travail : 100%
Date limite de candidature : 10/05/2026
Modalités de recrutement : CV et lettre de motivation obligatoires. Nous ne pourrons pas étudier votre candidature si nous n'avons pas ces deux documents.