Stage-LLM multimodaux :nouvelle voie pour la ré-identification de personnes
Mission:
La ré-identification (Re-ID) d'objets ou de personnes consiste à déterminer si deux images - souvent issues de caméras différentes - représentent la même entité.
Dans le cas des personnes, cette tâche s'effectue sans recours à la reconnaissance faciale, pour des raisons éthiques ou techniques.
Les approches classiques s'appuient sur des représentations dans des espaces sémantiques et des mesures de similarité. Elles offrent de bonnes performances en termes de rapidité et de précision, mais présentent des limites liées aux occlusions, aux variations de pose.
En parallèle, les modèles de langage multimodaux (LLM) comme GPT (OpenAI), Gemini (Google), Claude (Anthropic), LLaVA/LLaMA (Meta) ou Pixtral (Mistral) ont récemment montré une capacité croissante à comprendre finement des scènes visuelles, en intégrant raisonnement et interprétation contextuelle.
L'objectif de ce stage de recherche est d'explorer dans quelle mesure les LLM multimodaux peuvent servir d'alternative aux approches traditionnelles de ré-identification ou bien agir comme complément pour pallier leurs limitations.
Le stagiaire devra réaliser les travaux suivants:
1) État de l'art et implémentation de base
Revue des approches actuelles en ré-identification d'objets et de personnes.
Implémentation en Python/PyTorch d'un modèle de référence, notamment TransReID.
Constitution ou sélection de jeux de données adaptés.
2) Exploration des capacités image?texte des LLM multimodaux
Mise en oeuvre et test des principaux LLM multimodaux : via API (OpenAI, Google, Anthropic, etc.) et localement pour les modèles open source (LLaVA, Pixtral, etc.).
Définition de cas d'usage pertinents pour lesquels ces modèles peuvent améliorer les performances des tâches de Re-ID.
Conception d'un démonstrateur illustrant les apports et les limites de ces approches.
Profil recherché:
Étudiant(e) en dernière année d'école d'ingénieur ou de master en intelligence artificielle.
Bonnes compétences en Python et si possible PyTorch.
Intérêt marqué pour les modèles de deep learning et l'analyse d'image.
Curiosité pour les LLMs et les approches multimodales de dernière génération.