Chargement en cours

Data Scientist junior H/F

PARIS, 75
il y a 24 jours

Rattaché au pôle Data / IA, tu participeras à la construction d'un mécanisme général de détection capable d'identifier les mauvaises pratiques de nos utilisateurs, qu'elles soient involontaires (mauvaises connaissance des fonctionnalités de notre logiciel) ou volontaires (utilisations inappropriées, typiquement dans la communication de contenus).

Ce mécanisme sera appliqué à court terme sur deux projets importants pour Edifice :

  • Détection de contenus inappropriés pour assurer un environnement d'apprentissage de confiance (ex. textes incitant à la haine, images dégradantes, etc.).

  • Détection d'une action pédagogique au travers de la messagerie, alors qu'une fonctionnalité existe dans une autre application de la plateforme (ex. distribuer des devoirs via la messagerie plutôt que via l'application Exercices prévue à cet effet).

Pour nos cas d'utilisation, l'intégration de LLM ou même de SLM n'est pas envisageable, car avec en moyenne deux millions d'utilisateurs quotidiens échangeant des messages sur la plateforme, cela engendrerait des ralentissements pour l'utilisateur et des coûts prohibitifs.

L'objet du stage est de développer un système de classification sur-mesure, performant et précis, en remplacement de l'approche actuelle.

Descriptif technique

Sous la supervision de notre Ingénieur IA, tu seras responsable du cycle de vie complet du projet de machine learning :

  • Constitution de la base de données : Rassembler, analyser et annoter des données textuelles pour constituer des jeux d'entraînement et de validation robustes pour nos deux cas d'usage.

  • Développement du modèle :

    • Mettre en place une chaîne de traitement NLP basée sur la transformation de textes en embeddings vectoriels.

    • Entraîner un modèle de machine learning léger sur ces vecteurs pour classifier les contenus avec une haute précision et une latence très faible.

    • Évaluer les performances de différents modèles d'embedding et potentiellement les fine-tuner pour améliorer leur pertinence sur notre domaine spécifique.

  • Industrialisation (MLOps) :

    • Participer à la mise en production du service de classification.

    • Mettre en place des outils de monitoring pour suivre la performance et la fiabilité du modèle en continu

Environnement technologique :

  • Python, Jupyter Notebook pour les sujets DATA / IA

  • Front / back : Java / Vertx, TypeScript / AngularJs / Angular 8 / ReactJS

  • Infrastructure : Private Cloud OVH / Scaleway

  • Outillage : Github, Docker, Jenkins, Redmine, JIRA, Confluence, Postman

  • Bases : PostgreSQL, MongoDB, Neo4J, Open Search

  • HTTP / REST.

Entreprise
Édifice
Plateforme de publication
JOBRAPIDO
Offres pouvant vous intéresser
PARIS, 75
il y a 1 mois
CHEMIN, 39
il y a 1 jour
MONTAGNAT, 01
il y a 1 jour
MONTAGNAT, 01
il y a 3 jours
Soyez le premier à postuler aux nouvelles offres
Soyez le premier à postuler aux nouvelles offres
Créez gratuitement et simplement une alerte pour être averti de l’ajout de nouvelles offres correspondant à vos attentes.
* Champs obligatoires
Ex: boulanger, comptable ou infirmière
Alerte crée avec succès