Signaler

AI Engineer →

PARIS, 75

il y a 15 heures

Sortir l'IA des labs et l'intégrer en production. RAG, agents, MLOps, vision/NLP. Python, PyTorch, LangChain/LlamaIndex, Pinecone/Weaviate, FastAPI. Optimisation coûts/tokens.

Sortir l'IA des notebooks. Tu prends en charge des projets RAG / agents / LLM en production pour des clients qui ont déjà passé le POC et qui veulent du fiable. Pas de demo theater : on mesure l'accuracy, le coût, la latence, on tient des SLOs.

Ce que tu fais concrètement

Architecturer des pipelines RAG production : retrieval (Pinecone, pgvector, Qdrant), chunking + reranking, eval framework CI (Promptfoo, Langfuse).
Déployer des agents LLM avec garde-fous : tool use validation, cost guards, retry logic, observability via Langfuse/Helicone.
Optimiser les coûts d'inférence : routing multi-LLM (LiteLLM), batching, cache sémantique, fine-tuning quand le ROI le justifie.
Pair-design avec les data scientists internes du client pour transférer la propriété en fin de mission.
Évangéliser les patterns AI-safe en interne : RBAC sur les contexts, prompt injection mitigation, audit logs APPI/GDPR-ready.

Stack typique

LLM providers : Claude (default pour reasoning), OpenAI (default pour tool use), Llama 3.3 self-hosted (vLLM) pour privacy-critical.
Frameworks : LangChain (legacy clients), LlamaIndex, DSPy (en assess), Pydantic AI. Pour les agents : LangGraph, Vercel AI SDK.
Vector DB : Pinecone (managed, default), pgvector (si Postgres déjà en prod), Qdrant (self-hosted).
Backend : Python (FastAPI) ou Node (Hono). Déploiement Modal, Runpod, ou K8s GPU node-groups.
4+ ans en production sur des projets ML/AI. Ou 2+ ans avec une vraie spécialisation LLM/RAG production.
Solide en Python (typage strict, async, tests). Une stack backend secondaire (Node, Go) est un plus.
Comprends la différence entre un POC qui marche en demo et un système qui tient à 10k QPS avec p99 < 4s.
Connaissance pratique des trade-offs : embedding model choice, chunk size, retrieval strategy, prompt engineering vs fine-tuning.
Bonus : expérience LLM agents en prod (LangGraph, AutoGen, ou framework custom), ou MLOps (Kubeflow, MLflow, BentoML).

Compensation et avantages

Salarié CDI : 75-100 k€ brut + bonus. Freelance : € TJM HT selon expertise. Les profils confirmés sur RAG production + observability (Langfuse, Promptfoo CI) sont en haut de la fourchette.

Nucléaires de qualification

Faut-il un PhD ? Non. On préfère 4 ans de production AI à un PhD sans expérience industrielle. Si tu as les deux : tant mieux.

Clients potentiels

Banques (BNP, SocGen, BNC, Desjardins) : RAG sur core COBOL + audit ACPR. Luxe (Cartier) : LLM privé sur catalogue produit + NLP JP. Médias (Le Monde) : Insights data pour la rédaction. Industriels (Toyota, Money Forward) : agents tool-use sur ERP. Mix selon ta dispo.

Mode de travail et localisation

Le mode hybride Tokyo ? Pour les missions à Tokyo : présentiel partiel chez le client + remote depuis le hub Higashi-Azabu. JLPT N2 minimum demandé côté Tokyo (clients enterprise japonais ne tournent pas en english-only, sauf exceptions startups).

#J-18808-Ljbffr

Entreprise

Abbeal

Plateforme de publication

WHATJOBS

Offres pouvant vous intéresser

Alternance - Ingénieur IA Générative - LLM, RAG & Agents IA (H/F)

VENISSIEUX, 69

il y a 5 jours

Alternance - Ingénieur IA Générative — LLM, RAG & Agents IA F/H - Carso Investment

VÉNISSIEUX, 69

il y a 27 jours

Growth Engineer

PARIS, 75

il y a 5 jours

Agentic AI & Tool Developer

POISSY, 78

il y a 5 jours