Recherchez une offre d'emploi
Ingénieur de Recherche Alignement Post-Training H/F - 75
Description du poste
- INRIA
-
Paris - 75
-
CDD
-
Publié le 4 Decembre 2025
A propos d'Inria
Inria est l'institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l'interface d'autres disciplines. L'institut fait appel à de nombreux talents dans plus d'une quarantaine de métiers différents. 900 personnels d'appui à la recherche et à l'innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'eorce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.Ingénieur de recherche (alignement, post-training)
Type de contrat : CDD
Contrat renouvelable : Oui
Niveau de diplôme exigé : Bac +5 ou équivalent
Fonction : Ingénieur scientifique contractuel
Niveau d'expérience souhaité : Jeune diplômé
Contexte et atouts du poste
Dans le cadre du projet BPI Scribe, en partenariat avec les sociétés LightOn, Aleia le CNRS/Idris,l' objectif est d'étendre et de développer des jeux de resources nécessaires au post training de modèles de langue spécialisés.
Mission confiée
Contexte:
L'un des aspects cruciaux des LLMs est leurs capacités à analyser des documents complexes tels que des documents financiers complexes, prospectus d'émission ou rapports annuels, dont l'analyse pose des difficultés considérables aux modèles de langage (LLMs). Ces textes sont souvent longs, très structurés, et contiennent des informations interdépendantes dispersées sur des dizaines, voire des centaines de pages. Un prospectus, par exemple, mêle sections narratives (stratégie, risques, gouvernance) et annexes techniques riches en tableaux et en notes explicatives. Pour en extraire du sens, il faut relier des éléments situés à des endroits éloignés - un chiffre dans un tableau de flux de trésorerie n'est interprétable qu'en fonction d'hypothèses comptables mentionnées ailleurs, ou de définitions juridiques données en amont. Les LLMs peinent encore à effectuer ce type de raisonnement transversal, limités par la taille de leur contexte et leur difficulté à interpréter la logique des renvois internes, des formules et des structures tabulaires. Les tableaux posent un problème particulièrement aigu : ils encodent l'information de manière implicite (hiérarchies d'en-têtes, regroupements, alignements) que les modèles textuels restituent mal. Pour explorer ces limites, nous avons déjà créé un jeu de données multimodal associant texte et tableaux chiffrés, sous forme de questions-réponses (Q&A), afin d'évaluer la capacité des modèles à naviguer entre différents types de contenu et à relier des informations dispersées.
Dans un premier temps, nous prévoyons désormais de l'étendre avec des questions mobilisant de longs contextes, simulant des raisonnements multi-sections proches des usages réels, et dans un second temps, transformer ce jeu de données Q&A en corpus "Instruct" pour le français, une ressource encore largement absente dans l'écosystème actuel. Cette démarche vise à combler un double manque : celui de données francophones adaptées à l'entraînement d'instructions complexes, et celui de benchmarks capables de mesurer la compréhension intégrée du texte et du tableau dans les documents financiers.
Supervision
Le ou la personne recrutée sera sous la responsabilité scientifique de Djamé Seddah.
Principales activités
Activité de recherche et de developpement : état de l'art, analyse, développement, etc.
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
- Accès à la formation professionnelle
- Sécurité sociale
Offres similaires
Stage 2026 - Data Science et Machine Learning - Ai Practitionner 100% R&D H/F
-
Ekimetriks
-
Paris - 75
-
Stage
-
16 Decembre 2025
Stage 2026 - Data Science et Machine Learning - Ai Practitionner - N 50% Client 50% R&D H/F
-
Ekimetriks
-
Paris - 75
-
Stage
-
16 Decembre 2025
Ingénieur R&D Modélisation Géométrique et Maillage 3D H/F
-
Itinnov
-
Paris 4e - 75
-
CDI
-
3 Decembre 2025
Recherches similaires
Déposez votre CV
Soyez visible par les entreprises qui recrutent à Paris.
Chiffres clés de l'emploi à Paris
- Taux de chomage : 9%
- Population : 2165423
- Médiane niveau de vie : 28570€/an
- Demandeurs d'emploi : 205650
- Actifs : 1177663
- Nombres d'entreprises : 490838
Sources :
Un site du réseaux :