Thèse Apprentissage Statistique à l'Aide de Modèles d'Attention H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Mathématiques École doctorale : Mathématiques Hadamard Laboratoire de recherche : Laboratoire de Mathématiques d'Orsay Direction de la thèse : Etienne BOURSIER ORCID 0000000275758575 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-30T23:59:59 Les mécanismes d'attention à activation softmax constituent un élément central des architectures Transformer modernes. Bien que des travaux récents aient permis de mieux comprendre les raisons de l'efficacité du softmax en pratique, la plupart des analyses théoriques des dynamiques d'apprentissage reposent sur des modèles simplifiés d'attention linéaire. Un résultat clé met cependant en évidence un lien entre ces deux régimes : lorsque l'entrée est constituée d'un nombre infini de tokens gaussiens i.i.d., une couche d'attention softmax préserve la gaussianité de la distribution de sortie, à une transformation affine près, et se comporte ainsi comme un opérateur linéaire agissant non pas sur un ensemble fini de tokens, mais sur la distribution sous-jacente dont ils sont issus. Cette perspective établit un pont théorique entre l'attention softmax non linéaire et les modèles d'attention linéaire.
Cette thèse vise à approfondir la compréhension théorique des couches d'attention softmax en étudiant leurs propriétés stochastiques et statistiques au-delà de ce régime asymptotique idéalisé. Le premier objectif consiste à établir des bornes de concentration non asymptotiques pour l'attention softmax appliquée à des prompts de longueur finie, au delà du cas Gaussien. Dans ce cadre, l'entrée est vue comme une mesure empirique composée d'un nombre fini d'échantillons, et il s'agit de quantifier la concentration de la sortie de la couche d'attention autour de son espérance, laquelle correspond à une transformation linéaire de la distribution gaussienne sous-jacente. Cette analyse permettra de mieux comprendre l'influence de la longueur du prompt sur le comportement du softmax et de caractériser les dynamiques d'apprentissage comme des perturbations stochastiques de dynamiques linéaires.
Le second objectif porte sur la classification supervisée et l'apprentissage en contexte (in-context learning). La propriété de préservation de la gaussianité par des couches d'attention softmax idéalisées sera exploitée afin d'étudier la capacité des mécanismes d'attention à effectuer des tâches de classification dans un cadre probabiliste. En partant du modèle de l'analyse discriminante linéaire (LDA), le projet examinera comment les couches d'attention encodent l'information de classe et représentent les tokens en fonction de leur étiquette. Cette étude sera étendue aux modèles de mélanges gaussiens, offrant un cadre à la fois tractable et expressif pour analyser la classification. Sur cette base, la thèse explorera ensuite des scénarios de type LDA en contexte, dans lesquels la structure des données dépend explicitement du prompt, afin d'éclairer les mécanismes sous-jacents à la classification en contexte.
Sur le plan méthodologique, le projet s'appuie sur des avancées récentes dans l'analyse des mécanismes d'attention et des opérateurs non linéaires agissant sur des mesures de probabilité, avec un accent particulier sur les modèles d'attention à softmax. Les résultats attendus incluent de nouvelles avancées théoriques sur le comportement stochastique des couches softmax ainsi que l'élaboration d'un cadre à base de mélanges gaussiens pour l'étude de la classification en contexte dans les architectures Transformer. Les mécanismes d'attention à activation softmax constituent un élément central des architectures Transformer modernes. Bien que des travaux récents aient permis de mieux comprendre les raisons de l'efficacité du softmax en pratique, la plupart des analyses théoriques des dynamiques d'apprentissage reposent sur des modèles simplifiés d'attention linéaire. Améliorer la compréhension théorique des éléments clés des grands modèles de langage (mécanisme d'attention)
Le profil recherché
Profil ayant des compétences avancées en statistiques, théorie de l'apprentissage automatique et/ou optimisation.