Ingénieur d'études en analyses des sources historiques (H/F)
Présentation du service/laboratoire :
Le laboratoire POLEN (Pouvoirs, Lettres, Normes - UR 4710), a une vocation fortement pluridisciplinaire, puisqu'il regroupe littéraires, historiens, historiens du droit, civilisationnistes, linguistes et anthropologues. Le projet scientifique d'ensemble du laboratoire porte sur la question de l'autorité, du pouvoir et du modèle, dans leurs différentes formes ou natures, et dans leurs différents modes d'expression, de représentation et de diffusion. Cette question soulève celle, a contrario, de la contestation, de la subversion et de la marge. Le projet "Sociabilités de l'information au XVIIIe siècle" s'inscrit plus spécifiquement dans l'équipe Claress (De l'âge Classique aux Restaurations).
Présentation du projet :
Le/la Ingénieur(e) sera en charge de développer, optimiser et déployer des modèles de reconnaissance de texte sur des manuscrits français du XVIIIème siècle et d'en proposer une exploitation textométrique. Ce poste s'inscrit dans un projet de recherche sur élaboration, la circulation et la manipulation de l'information, intitulé « Sociabilités de l'information et de la désinformation au XVIIIe siècle ». Le/la Ingénieur(e) travaillera principalement avec une historienne, spécialiste des médias des XVIIe et XVIIIe siècles.
Missions :
Développement et optimisation des modèles HTR :- Concevoir, entraîner et évaluer des modèles de HTR (ex : CRNN, Transformer) pour la transcription automatique de documents manuscrits.
- Adapter les modèles existants (ex : Kraken, Calamari) ou en développer de nouveaux en fonction des spécificités des corpus (écritures anciennes, langues rares, etc.).
- Utiliser e
Scriptorium pour l'annotation, l'entraînement et l'évaluation des modèles.
Prétraitement et préparation des données :- Nettoyer, segmenter et annoter des images de documents manuscrits (binarisation, correction de perspective, etc.).
- Collaborer avec les archivistes pour constituer des jeux de données labellisés de qualité.
- Automatiser les pipelines de prétraitement (Open
CV, Scikit-image, etc.).\n\n
Intégration et déploiement :- Intégrer les modèles HTR dans des workflows de numérisation (API, scripts Python).
- Optimiser les performances (temps de traitement, précision) pour des volumes importants de documents.
- Documenter les processus et former les utilisateurs finaux (archivistes, chercheurs).
Analyse et visualisation des transcriptions :
Utiliser TXM (Textométrie) ou des outils similaires pour :
- Visualiser les transcriptions en lien avec les images originales (alignement texte/image).
- Générer des statistiques d'usage des mots (fréquences, cooccurrences).
- Permettre des recherches par mots-clés dans les corpus transcrits.
Automatiser l'export des transcriptions vers des formats compatibles avec TXM (TEI, CSV, etc.).
Évaluer la pertinence de l'outillage de type RAG sur IA
Formation et expérience professionnelle
Bac+5 (Master, diplôme d'ingénieur) en informatique, sciences des données, humanités numériques, archivistique, ou discipline scientifique avec une spécialisation en gestion de données.
Expérience de 3 à 5 ans dans un poste similaire (gestion de BDD, numérisation, traitement de données scientifiques). Expérience en milieu académique ou culturel (bibliothèques, archives, laboratoires) appréciée.
Paléographie de manuscrits français du XVIIIe siècle
Maîtrise des outils HTR (e
Scriptorium ou Arkindex)
Langages de programmation : Python (Py
Torch, Tensor
Flow, Open
CV, Scikit-learn).
Traitement d'images : Techniques de binarisation, segmentation, augmentation de données.
Expérience en deep learning (CNN, RNN, Transformers) et en évaluation de modèles (métriques : CER, WER).
Outils d'analyse textuelle : TXM (un atout majeur), Ant
Conc, ou autres logiciels de textométrie.
Rigueur, Autonomie, Esprit d'équipe, Pédagogie, Adaptabilité