Data Engineer – R&D Multi-Omics & AI Infrastructure
Le poste
Data Engineer – R&D Multi-Omics & AI Infrastructure
À propos de Brenus Pharma
Brenus Pharma est une société biotechnologique en phase clinique basée à Lyon, France, développant des immunothérapies in vivo de nouvelle génération ciblant les tumeurs solides. Notre mission est de proposer une option de traitement efficace pour les patients sans alternative à la chimiothérapie. Notre technologie propriétaire Stimulated Ghost Cell (SGC) est conçue pour imiter la biologie du cancer et éduquer le système immunitaire du patient pour reconnaître et éliminer les cellules malignes. Notre candidat principal, STC-1010, cible le cancer colorectal microsatellitaire-stable (MSS) et est entré en essai clinique Phase I/IIa en 2025. Brenus vise à devenir un acteur clé de l’immuno-oncologie en combinant innovation et impact tangible pour les patients.
Votre rôle
Nous recherchons un Data Engineer motivé pour agir comme un bâtisseur central de notre infrastructure de données biologiques. Relevant du leadership scientifique et bio-informatique, votre rôle est fortement transversal et se situe à l’interface de l’infrastructure cloud, de la bio-informatique et des futures initiatives d’IA. Vous serez responsable de l’opérationnalisation de nos flux de données, en transformant des données wet-lab et multi-omics complexes en actifs propres, scalables et lisibles par machine pour alimenter nos modèles d’immunologie.
Vos missions
- Mission 1 — Construire et faire évoluer l’épine dorsale de données souveraine de Brenus
- Contribuer à la conception, la structuration et le déploiement de l’environnement de données cloud de Brenus pour centraliser les données scientifiques et bio-informatiques internes.
- Établir des principes robustes d’organisation des données, de stockage, de documentation et d’accès suivant les guidelines FAIR pour améliorer la traçabilité, la reproductibilité et la maintenabilité à long terme.
- Assurer la maintenance quotidienne, la fiabilité et l’évolution de l’infrastructure de données en collaboration avec l’équipe bio-informatique. Garantir la sécurité et la traçabilité des données conformément aux réglementations européennes (GDPR et conformité HDS).
- Mission 2 — Connecter et automatiser les pipelines multi-omics
- Intégrer des jeux de données internes avec des jeux de données biologiques publics pertinents pour soutenir les analyses bioinformatiques et l’exploration scientifique plus large.
- Contribuer à la structuration et à l’utilisation opérationnelle de workflows prenant en charge RNA-seq/transcriptomique, protéomique et d’autres jeux de données omiques évolutifs.
- Développer et automatiser des pipelines ETL/ELT robustes et des processus de données qui améliorent l’accessibilité, le contrôle qualité, la réutilisation et la robustesse à long terme des projets.
- Mission 3 — Permettre l’avenir des applications IA/ML
- Aider à poser les fondations des workflows activés par des agents IA et des capacités data‑driven IA/ML à venir, en interaction avec la direction/stratégie et des partenaires externes IA ou digitaux.
- Collaborer transversally pour traduire des besoins scientifiques complexes en solutions logicielles évolutives.
Education & Experience
Profil & Compétences
- Ingénieur, Master ou Doctorat en bioinformatique, ingénierie des données, biologie computationnelle, informatique ou domaine connexe avec exposition aux sciences de la vie.
- 3–5 ans d’expérience en ingénierie des données, ingénierie bio-informatique ou rôle similaire, idéalement en environnement industriel (un doctorat pertinent compte comme expérience).
Technical Stack
- Programmation: maîtrise de Python, connaissance de R pour les intégrations bioinformatiques, Linux et Git, expérience CI/CD (ex: GitHub Actions, GitLab CI). Expertise en conception et gestion de jeux de données relationnels (SQL, Oracle) et non relationnels (NoSQL), familiarité avec le stockage objet S3-compatible ou les formats colonne (ex: Apache Parquet) pour le traitement et l’automatisation des données.
- Infrastructures Cloud & IaC: expérience pratique dans la construction et la gestion d’environnements cloud pour données sensibles. Forte maîtrise de l’automatisation des déploiements via des outils IaC (Terraform ou Ansible). Expérience directe avec OVHcloud ou des clouds souverains européens est un atout majeur.
- Pipelines bio-informatique & reproductibilité: expérience de conteneurisation (Docker / Singularity) et de la construction de workflows multi-omics évolutifs et reproductibles. Maîtrise d’orchestrateurs tels que Nextflow (nf-core) ou Snakemake.
- Fluence des données biologiques: compréhension pratique des jeux de données biologiques à haute dimension et des environnements omiques. Capacité à structurer et traiter RNA-seq/transcriptomique et à naviguer dans des bases de données publiques (ex: TCGA, GEO). Expérience directe avec les données de protéomique ou immuno-oncologie est un atout.
Soft Skills
- Capacité à travailler en mode transversal avec bio-informatique, management/stratégie et partenaires externes.
- Esprit constructeur, à l’aise dans un environnement startup rapide et agile.
- Anglais professionnel requis.
Informations pratiques
- Lieu: Lyon, France (hybrid).
- Start: ASAP.
- Type de contrat: CDI (Statut Cadre).