AI Engineer →
Sortir l'IA des labs et l'intégrer en production. RAG, agents, MLOps, vision/NLP. Python, PyTorch, LangChain/LlamaIndex, Pinecone/Weaviate, FastAPI. Optimisation coûts/tokens.
Sortir l'IA des notebooks. Tu prends en charge des projets RAG / agents / LLM en production pour des clients qui ont déjà passé le POC et qui veulent du fiable. Pas de demo theater : on mesure l'accuracy, le coût, la latence, on tient des SLOs.
Ce que tu fais concrètement
- Architecturer des pipelines RAG production : retrieval (Pinecone, pgvector, Qdrant), chunking + reranking, eval framework CI (Promptfoo, Langfuse).
- Déployer des agents LLM avec garde-fous : tool use validation, cost guards, retry logic, observability via Langfuse/Helicone.
- Optimiser les coûts d'inférence : routing multi-LLM (LiteLLM), batching, cache sémantique, fine-tuning quand le ROI le justifie.
- Pair-design avec les data scientists internes du client pour transférer la propriété en fin de mission.
- Évangéliser les patterns AI-safe en interne : RBAC sur les contexts, prompt injection mitigation, audit logs APPI/GDPR-ready.
Stack typique
- LLM providers : Claude (default pour reasoning), OpenAI (default pour tool use), Llama 3.3 self-hosted (vLLM) pour privacy-critical.
- Frameworks : LangChain (legacy clients), LlamaIndex, DSPy (en assess), Pydantic AI. Pour les agents : LangGraph, Vercel AI SDK.
- Vector DB : Pinecone (managed, default), pgvector (si Postgres déjà en prod), Qdrant (self-hosted).
- Backend : Python (FastAPI) ou Node (Hono). Déploiement Modal, Runpod, ou K8s GPU node-groups.
- 4+ ans en production sur des projets ML/AI. Ou 2+ ans avec une vraie spécialisation LLM/RAG production.
- Solide en Python (typage strict, async, tests). Une stack backend secondaire (Node, Go) est un plus.
- Comprends la différence entre un POC qui marche en demo et un système qui tient à 10k QPS avec p99 < 4s.
- Connaissance pratique des trade-offs : embedding model choice, chunk size, retrieval strategy, prompt engineering vs fine-tuning.
- Bonus : expérience LLM agents en prod (LangGraph, AutoGen, ou framework custom), ou MLOps (Kubeflow, MLflow, BentoML).
Compensation et avantages
Salarié CDI : 75-100 k€ brut + bonus. Freelance : € TJM HT selon expertise. Les profils confirmés sur RAG production + observability (Langfuse, Promptfoo CI) sont en haut de la fourchette.
Nucléaires de qualification
Faut-il un PhD ? Non. On préfère 4 ans de production AI à un PhD sans expérience industrielle. Si tu as les deux : tant mieux.
Clients potentiels
Banques (BNP, SocGen, BNC, Desjardins) : RAG sur core COBOL + audit ACPR. Luxe (Cartier) : LLM privé sur catalogue produit + NLP JP. Médias (Le Monde) : Insights data pour la rédaction. Industriels (Toyota, Money Forward) : agents tool-use sur ERP. Mix selon ta dispo.
Mode de travail et localisation
Le mode hybride Tokyo ? Pour les missions à Tokyo : présentiel partiel chez le client + remote depuis le hub Higashi-Azabu. JLPT N2 minimum demandé côté Tokyo (clients enterprise japonais ne tournent pas en english-only, sauf exceptions startups).
#J-18808-Ljbffr