Thèse Cadres Fondés sur des Principes pour une IA Interprétable et Explicable H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris Télécom Paris École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information Direction de la thèse : Ashok VARDHAN MAKKUVA ORCID 0000000165019384 Début de la thèse : 2026-09-01 Date limite de candidature : 2026-04-14T23:59:59 Ces dernières années, les grands modèles linguistiques (LLM) et, plus particulièrement, leurs équivalents en matière de raisonnement -
les grands modèles de raisonnement (LRM) - ont obtenu des résultats remarquables dans des tâches complexes telles que
la compréhension du langage, le codage et le raisonnement mathématique et scientifique [18, 19]. Ce
succès a donné lieu à un essor de la recherche visant à comprendre ces modèles, tant sous
des angles théoriques tels que la représentation [6, 10, 15] et l'optimisation [8, 11, 12], que
par des approches scientifiques telles que l'interprétabilité [3, 16, 17]. Cependant, la grande majorité des études existantes
sur l'interprétabilité et des études théoriques se concentrent principalement sur les LLM, et accordent beaucoup moins d'attention
aux LRM. En conséquence, nous ne disposons toujours pas d'une compréhension fondée sur des principes expliquant pourquoi les LRM réussissent
certaines tâches structurées et où elles échouent systématiquement - une lacune qui prend de plus en plus
d'importance compte tenu de leur utilisation croissante dans des applications à fort impact et critiques pour la sécurité.
D'un point de vue théorique, les analyses actuelles du raisonnement par chaîne de pensée (CoT) sont
principalement basées sur des caractérisations de type classe de complexité et automates à états finis,
cf. [1,2,4,5,7,9,10,13,14,20]. Si ces perspectives offrent une expressivité utile et des garanties dans le pire des cas,
leur lien avec les régimes de raisonnement pratiques où les LRM affichent de solides
gains empiriques reste flou. Cette lacune justifie la nécessité de cadres de données structurés
fondés sur des principes, également appelés « bacs à sable », qui capturent naturellement la structure
essentielle des tâches de raisonnement réelles et permettent une analyse rigoureuse et fondée sur la théorie
du comportement des modèles. Ces « bacs à sable » contrôlables
permettent un diagnostic systématique et des tests de résistance, tandis que la modélisation théorique
qui s'appuie sur eux peut fournir des informations significatives et transférables - allant au-delà de l'interprétabilité heuristique
pour s'orienter vers des fondements qui éclairent directement la conception améliorée des modèles et des algorithmes. Large Language Models, Deep Learning, Signal Processing, and Information Theory
Le profil recherché
Ce cours est idéal pour les étudiants axés sur la théorie qui souhaitent acquérir une compréhension approfondie
du fonctionnement des grands modèles de langage (LLM). De solides connaissances en mathématiques sont requises. Une connaissance de base
des processus d'apprentissage profond est utile (mais pas obligatoire).