Postuler

Ingénieur d'études en analyses des sources historiques (H/F)

ORLEANS, 45

il y a 1 jour

CDD

Temps plein

Bac+5

Présentation du service/laboratoire :

Le laboratoire POLEN (Pouvoirs, Lettres, Normes - UR 4710), a une vocation fortement pluridisciplinaire, puisqu'il regroupe littéraires, historiens, historiens du droit, civilisationnistes, linguistes et anthropologues. Le projet scientifique d'ensemble du laboratoire porte sur la question de l'autorité, du pouvoir et du modèle, dans leurs différentes formes ou natures, et dans leurs différents modes d'expression, de représentation et de diffusion. Cette question soulève celle, a contrario, de la contestation, de la subversion et de la marge. Le projet "Sociabilités de l'information au XVIIIe siècle" s'inscrit plus spécifiquement dans l'équipe Claress (De l'âge Classique aux Restaurations).

Présentation du projet :

Le/la Ingénieur(e) sera en charge de développer, optimiser et déployer des modèles de reconnaissance de texte sur des manuscrits français du XVIIIème siècle et d'en proposer une exploitation textométrique. Ce poste s'inscrit dans un projet de recherche sur élaboration, la circulation et la manipulation de l'information, intitulé « Sociabilités de l'information et de la désinformation au XVIIIe siècle ». Le/la Ingénieur(e) travaillera principalement avec une historienne, spécialiste des médias des XVIIe et XVIIIe siècles.

Missions :

Développement et optimisation des modèles HTR :

Concevoir, entraîner et évaluer des modèles de HTR (ex : CRNN, Transformer) pour la transcription automatique de documents manuscrits.
Adapter les modèles existants (ex : Kraken, Calamari) ou en développer de nouveaux en fonction des spécificités des corpus (écritures anciennes, langues rares, etc.).
Utiliser e

Scriptorium pour l'annotation, l'entraînement et l'évaluation des modèles.

Prétraitement et préparation des données :

Nettoyer, segmenter et annoter des images de documents manuscrits (binarisation, correction de perspective, etc.).
Collaborer avec les archivistes pour constituer des jeux de données labellisés de qualité.
Automatiser les pipelines de prétraitement (Open

CV, Scikit-image, etc.).\n\n

Intégration et déploiement :

Intégrer les modèles HTR dans des workflows de numérisation (API, scripts Python).
Optimiser les performances (temps de traitement, précision) pour des volumes importants de documents.
Documenter les processus et former les utilisateurs finaux (archivistes, chercheurs).

Analyse et visualisation des transcriptions :

Utiliser TXM (Textométrie) ou des outils similaires pour :

- Visualiser les transcriptions en lien avec les images originales (alignement texte/image).

- Générer des statistiques d'usage des mots (fréquences, cooccurrences).

- Permettre des recherches par mots-clés dans les corpus transcrits.

Automatiser l'export des transcriptions vers des formats compatibles avec TXM (TEI, CSV, etc.).

Évaluer la pertinence de l'outillage de type RAG sur IA

Formation et expérience professionnelle

Bac+5 (Master, diplôme d'ingénieur) en informatique, sciences des données, humanités numériques, archivistique, ou discipline scientifique avec une spécialisation en gestion de données.

Expérience de 3 à 5 ans dans un poste similaire (gestion de BDD, numérisation, traitement de données scientifiques). Expérience en milieu académique ou culturel (bibliothèques, archives, laboratoires) appréciée.

Paléographie de manuscrits français du XVIIIe siècle

Maîtrise des outils HTR (e

Scriptorium ou Arkindex)

Langages de programmation : Python (Py

Torch, Tensor

Flow, Open

CV, Scikit-learn).

Traitement d'images : Techniques de binarisation, segmentation, augmentation de données.

Expérience en deep learning (CNN, RNN, Transformers) et en évaluation de modèles (métriques : CER, WER).

Outils d'analyse textuelle : TXM (un atout majeur), Ant

Conc, ou autres logiciels de textométrie.

Rigueur, Autonomie, Esprit d'équipe, Pédagogie, Adaptabilité

Entreprise

UNIVERSITE D'ORLEANS

Plateforme de publication

Offres pouvant vous intéresser

Deux contrats de recherche doctorale ou post-doctorale ou d’ingénieur d’études/recherche en cri[...]

AUBERVILLIERS, 93

il y a 6 jours

Responsable du pôle Données

MONTBONNOT SAINT MARTIN

il y a 4 jours

Stagiaire Data Scientist - Products Data (H/F)

COURBEVOIE, 92

il y a 6 jours

Ingénieur Data – Production & MCO Aéronautique (H/F)

PROVENCE ALPES CÔTE D'AZUR, FRANCE

il y a 6 jours