Thèse Apprentissage Efficace et Adaptatif de Petits Modèles de Langue H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Sophie ROSSET ORCID 0000000268654989 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-07-15T23:59:59 Les grands modèles de langue constituent une avancée majeure en traitement automatique des langues et ont ouvert la voie à un usage grand public de ces outils.
Le sujet de thèse proposé est motivé par le besoin croissant de déployer des modèles de langue performants sous de fortes contraintes de latence, de mémoire et d'énergie.
Cette tension entre performance et ressources suscite un intérêt croissant pour des modèles plus compacts, ainsi que pour l'apprentissage adaptatif et efficace de ces « petits » modèles de langue.
Dans ce contexte, on accordera une importance particulière au coût computationnel des méthodes proposées, à la fois dans une perspective de frugalité -- réduire la consommation énergétique des modèles développés, et de contrôle -- permettre un déploiement des modèles sur des machines hébergées localement.
La thèse vise à aborder l'un ou plusieurs des axes de recherche suivants.
Tout d'abord, la mise à jour en continu des modèles (pour prendre en compte de nouvelles informations, personnaliser ou corriger un modèle existant), ainsi que le pré-entraînement en continu des modèles de fondation, afin de permettre leur évolution et leur réutilisation à moindre coût.
Deuxièmement, dans le contexte de l'utilisation de modèles de langue par de multiples agents en interaction pour accomplir une tâche donnée, on pourra également s'intéresser à la spécialisation efficace de ces modèles sous la forme de différents agents moins coûteux, et à la formalisation des interactions de ces agents.
Enfin, ces nouveaux modes d'entraînement et d'utilisation des modèles de fondation motivent le développement de nouvelles méthodes d'évaluation et de vérification des propriétés de ces modèles ainsi que de leurs sorties. es progrès récents des grands modèles de langue (*large language models*, LLMs) ont favorisé leur adoption dans un nombre croissant d'applications industrielles et de grand public. Afin de faire face à l'explosion de la demande, que ce soit en termes de spécialisation des modèles pour des domaines d'application précis, ou de l'usage quotidien d'utilisateurs individuels dans un nouveau mode de consommation de l'information, il est crucial de traiter les contraintes pratiques que ces applications imposent.
La latence d'une réponse, le coût en mémoire et en énergie à l'inférence, le coût d'entraînement et d'adaptation des modèles, la possibilité de mise à jour en continu (enrichissement, corrections, personnalisation) sont autant de problématiques suscitant une recherche active dans le domaine des LLMs -- ou de leurs alternatives plus compactes, les *small language models* (SLMs).
Aujourd'hui, de relativement petits modèles ont montré qu'il est possible de maintenir des capacités proches de celles de modèles plus larges sur un ensemble de tâches ou de domaines plus restreints, tout en réduisant drastiquement le nombre de paramètres et le temps d'inférence.
Dans ce contexte, l'objectif de cette thèse est de **contribuer au développement d'architectures, d'algorithmes et de protocoles afin d'améliorer les performances et l'efficacité des petits modèles de langue**.
On s'intéressera en particulier à l'apprentissage continu de modèles de langue (mises à jour incrémentales, pré-entraînement en continu), et aux problématiques d'évaluation que ces mises à jour soulèvent (stabilité des performances, adéquation aux garde-fous et préférences utilisateurs initiales).
Un second axe de recherche consiste en la spécialisation de modèles sous la forme de multiples agents de moindre coût, combinables pour réaliser une tâche complexe. Le projet doctoral s'articule autour des questions de recherche suivantes. Les différents axes de recherche proposés pourront être traités de manière sélective.
**Petits modèles de langue**
- Dans quelle mesure des SLM peuvent-ils atteindre des performances proches de celles des LLM ?
- Quelles méthodes permettent de réduire l'écart de performance entre SLM et LLM ?
- Comment combiner différents modèles spécialisés à partir d'un même modèle de base ?
**Apprentissage continu des modèles de langue**, avec un accent sur les petits modèles.
- Comment mettre à jour en continu des (S)LMs tout en préservant leurs capacités ?
- Comment concevoir des benchmarks adaptés à l'apprentissage continu des modèles de langue ? Comment quantifier la performance dans des contextes évolutifs ?
- Comment garantir, à long terme, la conformité d'un modèle de langue à un ensemble de préférences et de guidelines, malgré des mises à jour successives ? De manière symétrique, lorsque les consignes, contraintes ou préférences utilisateur évoluent progressivement, comment assurer une conformité durable du modèle à ces consignes ?
**Protocoles d'évaluation pour l'apprentissage continu de modèles de langue** et, en particulier, pour des agents fondés sur des (S)LM.
- Comment définir des tâches permettant de mesurer conjointement (i) l'acquisition de nouvelles compétences, (ii) la rétention des compétences passées, et (iii) la robustesse hors distribution ?
- Formalisation de l'évaluation : comment formaliser une évaluation multicritère qui distingue clairement les *préférences* (style, ton, format) et les *contraintes* (sécurité, conformité, véracité), afin de mieux guider les mises à jour du modèle ?
- Comment réaliser ces mises à jour tout en garantissant une conformité durable aux consignes données ?
**Orchestration efficiente d'agents fondés sur de petits modèles de langue** afin de construire un ensemble d'agents peu coûteux, dont les performances dépassent celles d'un modèle unique plus grand.
- Peut-on spécialiser un modèle donné en plusieurs modèles nettement plus petits, capables d'accomplir la même tâche selon des stratégies complémentaires ?
- Comment concevoir un système de micro-agents spécialisés qui soit « supérieur à la somme de ses parties » ? Autrement dit : le coût cumulé des experts/agents doit être inférieur à celui du modèle initial (ou teacher model), tout en obtenant une performance globale au moins aussi bonne que celle du modèle d'origine.
- Comment définir un protocole d'interaction agentique plus fiable et efficace ?
Le profil recherché
Master ou diplôme d'ingénieur IA, mathématiques
Expérience en TAL