Signaler

Principal Coding Annotator / LLM Evaluation Engineer

PARIS, 75

il y a 1 jour

About the Role

We are building and evaluating state‑of‑the‑art large language models (LLMs) and are looking for experienced software engineers to join our evaluation and annotation team. This role sits at the intersection of real‑world software engineering, model evaluation, and applied AI, and is critical to improving model reliability, reasoning, and code quality.

This is a contracting engagement – initially 6 months – with potential for long‑term engagement.

Location: Paris or London‑based preferred; alternatively Europe remote for strong candidates.

What You’ll Do

Create high‑quality coding prompts and reference answers (benchmark‑style, e.g. SWE‑Bench‑like problems).
Evaluate LLM outputs for code generation, refactoring, debugging, and implementation tasks.
Identify and document model failures, edge cases, and reasoning gaps.
Perform head‑to‑head evaluations between private LLMs (Mistral‑based) and leading external models.
Build or configure coding environments to support evaluation and reinforcement learning (RL).
Follow detailed annotation and evaluation guidelines with high consistency.

What We’re Looking For

10+ years of professional software development experience.
Strong Python skills (required).
Knowledge of at least one additional programming language (bonus).
1+ year of coding annotation and/or LLM evaluation experience (part‑time OK) in a major frontier AI lab or AI infrastructure company.
Prior code reviewer experience is a plus.
Proven ability to apply structured evaluation criteria and write clear technical feedback.
Fluent in English (written and spoken).
Team lead or mentoring experience is a strong plus.

Why This Role

Work hands‑on with cutting‑edge LLMs.
Apply real‑world engineering judgment to model evaluation and improvement.
High‑impact, technical work with a focused, senior team.

Présentation en français

Il s'agit d'une mission contractuelle – initialement de 6 mois – avec possibilité de prolongation.

Lieu : Poste basé à Paris/London de préférence ; possibilité de télétravail en Europe pour les candidats les plus qualifiés.

Nous développons et évaluons des modèles de langage de grande taille (LLM) de pointe et recherchons des ingénieurs logiciels expérimentés pour rejoindre notre équipe d’évaluation et d’annotation. Ce poste se situe à l’intersection du génie logiciel, de l’évaluation de modèles et de l’IA appliquée, et est essentiel à l’amélioration de la fiabilité des modèles, du raisonnement et de la qualité du code.

Vos Missions

Créer des consignes de programmation et des réponses de référence de haute qualité (de type benchmark, par exemple des problèmes similaires à SWE‑Bench). Évaluer les résultats des modèles de langage (LLM) pour la génération de code, la refactorisation, le débogage et l’implémentation.
Identifier et documenter les défaillances des modèles, les cas limites et les lacunes de raisonnement.
Effectuer des évaluations comparatives directes entre les LLM privés (basés sur Mistral) et les principaux modèles externes.
Concevoir ou configurer des environnements de développement pour l’évaluation et l’apprentissage par renforcement (RL).
Suivre rigoureusement les directives d’annotation et d’évaluation.

Profil Recherché

Plus de 10 ans d’expérience professionnelle en développement logiciel.
Excellente maîtrise de Python (obligatoire).
Connaissance d’au moins un autre langage de programmation (un atout).
Au moins un an d’expérience en annotation de code et/ou en évaluation de LLM (temps partiel possible) au sein d’un laboratoire d’IA de pointe ou d’une entreprise d’infrastructure d’IA.
Une expérience en revue de code est un plus.
Capacité avérée à appliquer des critères d’évaluation structurés et à rédiger des retours techniques clairs.
Maîtrise de l’anglais (écrit et oral).
Une expérience en gestion d’équipe ou en mentorat est un atout majeur.

Pourquoi ce poste ?

Travaillez concrètement avec des LLM de pointe.
Appliquez votre expertise d’ingénieur à l’évaluation et à l’amélioration des modèles.
Contribuez à un travail technique à fort impact au sein d’une équipe senior spécialisée.

#J-18808-Ljbffr

Entreprise

Braintrust

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

Software Engineer Annotator

LA RÉUNION, FRANCE

il y a 25 jours

Wood Defect Product Owner

FRANCE

il y a 11 jours

Data Scientist (Masters)

FRANCE

il y a 9 jours

Arabic Trust & Safety Data Trainer | $50/hr Remote

FRANCE

il y a 11 jours

Principal Coding Annotator / LLM Evaluation Engineer

About the Role

What You’ll Do

What We’re Looking For

Why This Role

Présentation en français

Vos Missions

Profil Recherché

Pourquoi ce poste ?

Pourquoi ce poste ?