Thèse Alignement Entre Entraînement et Inférence pour le Raisonnement dans les Modèles Génératifs H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris École polytechnique École doctorale : Mathématiques Hadamard Laboratoire de recherche : CMAP - Centre de Mathématiques appliquées Direction de la thèse : Alain DURMUS Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-01T23:59:59 Cette proposition de thèse porte sur l'alignement entre l'entraînement et l'inférence pour le raisonnement dans les modèles génératifs profonds. Les progrès récents du raisonnement dans les grands modèles de langage reposent principalement sur un paradigme unique : la génération autorégressive combinée à un post-entraînement par apprentissage par renforcement. Bien que cette approche soit efficace, elle présente des désalignements fondamentaux entre la manière dont les modèles sont entraînés et celle dont ils sont utilisés en pratique. Pour les tâches de raisonnement, les modèles sont entraînés à fournir la bonne réponse du premier coup, alors qu'en inférence on génère souvent plusieurs tentatives avant de sélectionner la meilleure ; ils sont entraînés à prédire un token à la fois, alors que l'on souhaite des raisonnements cohérents sur plusieurs étapes ; enfin, ils sont entraînés individuellement, alors qu'ils sont de plus en plus déployés dans des systèmes où plusieurs modèles doivent coopérer.L'hypothèse centrale de cette thèse est que les capacités de raisonnement dépendent de façon cruciale de la conception conjointe des objectifs d'entraînement, des architectures de modèles et des procédures d'inférence. Cette idée sera explorée suivant deux directions de recherche complémentaires : (1) des méthodes d'échantillonnage permettant de mettre en évidence et de compenser partiellement le décalage entre entraînement et inférence dans les modèles autorégressifs et (2) les modèles de langage à diffusion discrète, envisagés comme une architecture permettant un couplage plus étroit entre entraînement et inférence. Large language models have recently demonstrated substantial improvements on multi-step reasoning tasks. Models such as OpenAI's o-series, DeepSeek-R1, and QwQ achieve strong performance on mathematical problem-solving, code generation, and logical reasoning benchmarks \parencite{deepseek-ai\_deepseek-r1\_2025}. These advances share a common recipe: an autoregressive base model trained via next-token prediction, reinforcement learning post-training where models learn to generate extended chains of thought, and simple inference procedures such as greedy decoding or basic sampling.
The current paradigm for reasoning traces to process-level supervision and was scaled through algorithms like GRPO \parencite{shao\_deepseekmath\_2024}. DeepSeek-R1 combined these elements with long chain-of-thought generation, establishing extended internal reasoning as a standard approach \parencite{deepseek-ai\_deepseek-r1\_2025}. Key characteristics include binary or sparse rewards (correct/incorrect final answer), training on verifiable domains (math, code) where rewards are readily available, and long reasoning traces that ``think through'' problems before answering.
A parallel line of work explores computation at inference time. \textbf{Test-time training} approaches like TTRL \parencite{zuo\_ttrl\_2025} apply GRPO during inference using majority voting as a proxy reward, blurring the training/inference boundary. \textbf{Test-time inference} focuses on better sampling without weight updates: self-consistency, step-by-step verification, and iterative refinement approaches like STaR \parencite{zelikman\_star\_2022}. These are importantly different setups: RL post-training on a training split versus RL at test-time on held-out data. The literature sometimes conflates them, but they raise different questions about generalization and alignment.
Beyond greedy decoding, various methods attempt to extract better solutions from fixed models: best-of-N sampling and majority voting, tree search methods (beam search, MCTS-style approaches), and power posterior sampling (sampling from $p\_\theta^\alpha$ to concentrate probability on high-quality solutions). These methods partially compensate for training-inference mismatch but remain limited by the autoregressive constraint: once tokens are committed, they cannot be revised.
Alternative architectures exist. Discrete diffusion language models (dLLMs) offer a fundamentally different generation paradigm. Rather than left-to-right token generation, they generate all positions simultaneously, iteratively refine from noise toward coherent text, and naturally support revision of intermediate states. This architecture has properties that could address training-inference mismatch: verification signals can act on intermediate states (unlike AR), generation considers all positions jointly rather than committing locally, and the number of refinement steps at inference can differ from training. Current dLLMs underperform AR models on reasoning benchmarks, but this may reflect training recipes rather than architectural limits.
Le profil recherché
- De solides bases en probabilités/processus stochastiques et en optimisation (idéalement avec une première exposition au transport optimal / à la géométrie de Wasserstein).
- Un bon niveau en apprentissage automatique, avec un intérêt ou une expérience en modèles de diffusion / flow matching et en apprentissage de représentations.
- De bonnes compétences en programmation pour développer et conduire des expériences sur des modèles génératifs.