Post-doctorant·e en machine learning

ANGERS, 49

il y a 4 jours

Sujet : Apprentissage par renforcement profond pour résoudre des problèmes d'optimisation boîte noire

En optimisation stochastique, les algorithmes à estimation de distribution (EDA) constituent une approche alternative aux méthodes évolutionnaires traditionnelles. Leur principe fondamental consiste non pas à travailler directement sur une population de solutions candidates au moyen d’opérateurs, mais à apprendre explicitement une distribution de probabilité susceptible de modéliser les régions de l’espace de recherche où se concentrent les solutions les plus performantes.

Dans le cadre du projet COMBO, nous avons récemment proposé un cadre d'apprentissage par renforcement invariant à l'ordre de génération des variables pour résoudre des problèmes d’optimisation combinatoire discrets de type boîte noire ( Dans ce travail, nous paramétrons un modèle génératif autorégressif multivarié de génération de solutions. En échantillonnant des ordres de génération aléatoires pendant l'entraînement (une forme de dropout structurel préservant l’information), le modèle est encouragé à être invariant par rapport à l'ordre des variables, ce qui favorise la diversité de l'espace de recherche et façonne le modèle pour qu'il se concentre sur les dépendances entre les variables les plus pertinentes, améliorant ainsi l'efficacité de l'échantillonnage. Pour l’entraînement du modèle, nous avons adapté l'algorithme d’apprentissage par renforcement Group Relative Policy Optimization (GRPO) (Zhihong et al., 2024), qui permet des mises à jour stables du gradient des politiques à partir d'avantages invariants à l'échelle des valeurs de la fonction objectif du problème. Sur un large éventail d'instances de problèmes réels et artificiels, de tailles variées, et en comparaison avec de nombreux algorithmes de l’état de l’art, notre méthode, nommée RL-EDA, atteint fréquemment les meilleures performances.

Vous pouvez télécharger la fiche de poste complète ici

You can download the job description here

Le candidat ou la candidate devra être titulaire d’un doctorat de moins de 3 ans.

Savoir

Le/la candidat·e doit avoir des bases dans les domaines de l’optimisation et du machine learning.
Des connaissances dans les domaines de l’apprentissage par renforcement et de l’optimisation boîte noire seraient un plus.

Savoir faire

Le/la candidat·e doit être à l’aise en développement algorithmique avec le langage Python.
Une connaissance de la librairie Pytorch pour le développement de réseaux de neurones serait appréciable.

Savoir être

Le/la candidat·e doit avoir une capacité à travailler en équipe avec les différents intervenants du projet.
Il/elle doit être motivé·e et appliqué·e dans son travail.

Poste ouvert uniquement aux contractuels

Catégorie/corps: Post doctorant·e

Diplôme minimum requis : Bac+8

Type de contrat et durée : CDD de 12 mois

Rémunération brute mensuelle : entre 2800€ et 2900€ brut

Date de prise de poste souhaitée : 01/09/2026

Quotité de travail: 100%

Date limite de candidature : 10/05/2026

Modalités de recrutement: CV et lettre de motivation obligatoires. Nous ne pourrons pas étudier votre candidature si nous n'avons pas ces deux documents.

#J-18808-Ljbffr

Entreprise

Université d'Angers

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

Post-doctorant·e en machine learning (H/F)

2 800,00 € - 2 900,00 € / mois

ANGERS, 49

il y a 7 jours

Delivery Manager (Payments)

PARIS, 75

il y a 7 jours

Alternance - Développeur IA F/H

LYON 1ER, 69

il y a 27 jours

Ingénieur recherche et développement IA (F/H)

VANNES, 56

il y a 1 jour