Thèse Evaluation de la Qualité des Grands Modèles de Langage H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris Cité École doctorale : Ecole Doctorale d'Informatique, Télécommunications et Electronique Laboratoire de recherche : Laboratoire d'Informatique Paris Descartes Direction de la thèse : Soror SAHRI ORCID 0000000215547565 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-01T23:59:59 Les grands modèles de langage (LLMs) occupent aujourd'hui une place centrale dans les systèmes d'intelligence artificielle, en permettant des avancées majeures en compréhension et génération du langage naturel. Leur intégration dans des applications variées, parfois critiques comme la santé, le droit ou l'aide à la décision, soulève cependant des enjeux importants liés à la qualité, la fiabilité et la confiance dans les informations produites. Malgré leurs performances impressionnantes, les LLMs restent des systèmes probabilistes qui génèrent du texte à partir de corrélations statistiques apprises, sans réelle compréhension du monde, ce qui peut conduire à des réponses plausibles mais incorrectes, incohérentes ou biaisées.
La notion de qualité dans les LLMs est intrinsèquement complexe et multidimensionnelle. Elle recouvre plusieurs aspects complémentaires tels que l'exactitude factuelle, la cohérence sémantique, la pertinence contextuelle, la robustesse face aux variations d'entrée, ainsi que l'équité. Les approches actuelles d'évaluation restent largement insuffisantes, car elles reposent sur des métriques automatiques ou des benchmarks statiques, souvent spécifiques à une tâche. Ces méthodes ne reflètent pas la diversité des usages réels, ni la nature dynamique des interactions avec les modèles, et restent souvent mal corrélées au jugement humain.
Les problèmes de qualité dans les LLMs trouvent leur origine à plusieurs niveaux du cycle de vie des modèles. Les données d'entraînement jouent un rôle déterminant : elles contiennent fréquemment du bruit, des duplications, des biais sociaux et des informations erronées, qui sont appris puis parfois amplifiés par les modèles. Les étapes de prétraitement, notamment la tokenisation, peuvent également introduire des pertes d'information ou des incohérences dans la représentation des textes. Ces facteurs dégradent significativement la qualité de l'information générée et contribuent à des phénomènes tels que les hallucinations, où le modèle produit des contenus non vérifiables ou factuellement faux . Par ailleurs, les LLMs présentent des limites en raisonnement, en mise à jour des connaissances et en gestion des changements de distribution, ce qui entraîne des comportements instables selon les contextes.
Des travaux récents suggèrent de structurer la qualité de l'information autour de dimensions fondamentales telles que l'exactitude, la cohérence et la pertinence. Ces dimensions permettent de mieux caractériser la valeur des sorties des modèles, mais elles restent difficiles à mesurer conjointement et impliquent souvent des compromis. Par exemple, améliorer l'exactitude peut réduire la diversité des réponses, tandis qu'optimiser la pertinence peut introduire des biais.
Ce projet vise à répondre à ces défis en proposant un cadre unifié, adaptatif et sensible au contexte pour l'évaluation et l'amélioration de la qualité des LLMs. Il s'agira de formaliser les différentes dimensions de la qualité, de concevoir des méthodes d'évaluation capables de s'adapter aux usages et aux contextes, et de développer des approches pour atténuer les problèmes majeurs tels que les hallucinations, les biais et les incohérences. En rapprochant les notions de performance et de fiabilité, ce travail ambitionne de contribuer au développement de systèmes d'intelligence artificielle plus robustes et dignes de confiance.
Large Language Models have become central to modern artificial intelligence systems, enabling significant advances in natural language understanding and generation. However, their increasing deployment in real-world applications raises critical concerns regarding the reliability and trustworthiness of the information they produce. Despite strong empirical performance, LLMs frequently generate outputs that are factually incorrect, inconsistent, or misaligned with the user's intent.
Current evaluation approaches are largely based on static benchmarks and task-specific metrics, which fail to capture the dynamic and context-dependent nature of LLM outputs. Similar to data quality issues in machine learning pipelines, LLM quality evolves over time and across contexts, influenced by factors such as input variability, distribution shifts, and prompt sensitivity. As highlighted in recent work, information quality in LLMs can be structured around key dimensions such as accuracy, consistency, and relevance, but these dimensions remain insufficiently formalized and are not integrated into practical evaluation frameworks.
At the same time, large-scale evaluation frameworks such as HELM have demonstrated the importance of multi-dimensional assessment, but also revealed the complexity and lack of operational simplicity in current approaches. This project addresses this gap by proposing a principled yet tractable approach to LLM quality evaluation, inspired by adaptive data quality management in ML systems. This project aims to evaluating the quality of Large Language Model (LLM) outputs, by introducing adaptive mechanisms capable of capturing variations in model behavior across tasks, inputs, and evolving conditions. The project will first formalize LLM quality through the definition of measurable indicators. The interactions between these dimensions and their dependence on context will be explicitly modeled. Second, the project will develop adaptive evaluation mechanisms including techniques capable of monitoring quality variations across inputs and tasks, as well as the use of LLMs as evaluators (LLM-as-a-judge) to approximate human judgment. Third, the proposed framework will be empirically validated through experiments on representative tasks. The evaluation will focus on analyzing failure modes such as hallucinations and inconsistencies, and assessing whether the proposed dimensions effectively capture variations in output quality.
Le profil recherché
Le candidat ou la candidate doit être inscrit(e) en dernière année de Master ou en école d'ingénieurs, ou être titulaire d'un tel diplôme en informatique, science des données ou mathématiques appliquées, et justifier de solides compétences en programmation. Il ou elle doit être en mesure de rédiger des rapports scientifiques et de présenter des résultats de recherche en anglais lors de conférences, avec un niveau d'anglais équivalent à C1 minimum.