Data Scientist junior H/F
Rattaché au pôle Data / IA, tu participeras à la construction d'un mécanisme général de détection capable d'identifier les mauvaises pratiques de nos utilisateurs, qu'elles soient involontaires (mauvaises connaissance des fonctionnalités de notre logiciel) ou volontaires (utilisations inappropriées, typiquement dans la communication de contenus).
Ce mécanisme sera appliqué à court terme sur deux projets importants pour Edifice :
Détection de contenus inappropriés pour assurer un environnement d'apprentissage de confiance (ex. textes incitant à la haine, images dégradantes, etc.).
Détection d'une action pédagogique au travers de la messagerie, alors qu'une fonctionnalité existe dans une autre application de la plateforme (ex. distribuer des devoirs via la messagerie plutôt que via l'application Exercices prévue à cet effet).
Pour nos cas d'utilisation, l'intégration de LLM ou même de SLM n'est pas envisageable, car avec en moyenne deux millions d'utilisateurs quotidiens échangeant des messages sur la plateforme, cela engendrerait des ralentissements pour l'utilisateur et des coûts prohibitifs.
L'objet du stage est de développer un système de classification sur-mesure, performant et précis, en remplacement de l'approche actuelle.
Descriptif technique
Sous la supervision de notre Ingénieur IA, tu seras responsable du cycle de vie complet du projet de machine learning :
Constitution de la base de données : Rassembler, analyser et annoter des données textuelles pour constituer des jeux d'entraînement et de validation robustes pour nos deux cas d'usage.
Développement du modèle :
Mettre en place une chaîne de traitement NLP basée sur la transformation de textes en embeddings vectoriels.
Entraîner un modèle de machine learning léger sur ces vecteurs pour classifier les contenus avec une haute précision et une latence très faible.
Évaluer les performances de différents modèles d'embedding et potentiellement les fine-tuner pour améliorer leur pertinence sur notre domaine spécifique.
Industrialisation (MLOps) :
Participer à la mise en production du service de classification.
Mettre en place des outils de monitoring pour suivre la performance et la fiabilité du modèle en continu
Environnement technologique :
Python, Jupyter Notebook pour les sujets DATA / IA
Front / back : Java / Vertx, TypeScript / AngularJs / Angular 8 / ReactJS
Infrastructure : Private Cloud OVH / Scaleway
Outillage : Github, Docker, Jenkins, Redmine, JIRA, Confluence, Postman
Bases : PostgreSQL, MongoDB, Neo4J, Open Search
HTTP / REST.