Thèse Apprentissage Séquentiel dans les Jeux à Champ Moyen Algorithmes Sélection d'Équilibres et Théorie des Mécanismes d'Incitation H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris École nationale de la statistique et de l'administration économique École doctorale : Mathématiques Hadamard Laboratoire de recherche : CMAP - Centre de Mathématiques appliquées Direction de la thèse : Antonio OCELLO ORCID 0000000271857664 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-04-30T23:59:59 Ce projet de thèse vise à développer un cadre théorique et algorithmique pour l'apprentissage séquentiel dans les jeux à champ moyen (Mean Field Games, MFG), avec un accent particulier sur les interactions entre l'apprentissage par renforcement, l'apprentissage en ligne et les systèmes stratégiques à grande population. Alors que la théorie classique des MFG se concentre sur le calcul d'équilibres, ce projet cherche plutôt à comprendre si des agents apprenant de manière décentralisée convergent effectivement vers de tels équilibres et quels concepts de solution émergent de dynamiques d'apprentissage réalistes.
Le premier axe de recherche étudie les formulations variationnelles des équilibres de MFG et leurs liens avec l'optimisation en ligne. En s'appuyant sur des outils tels que la descente miroir (mirror descent), les méthodes proximales et la théorie des inégalités variationnelles, le projet vise à concevoir des algorithmes d'apprentissage dont la convergence peut être rigoureusement établie, ainsi qu'à obtenir des garanties de convergence non asymptotiques.
Le deuxième axe porte sur l'apprentissage sensible au risque et distributionnel dans les MFG, en établissant des liens avec l'apprentissage par renforcement basé sur des utilités concaves et les jeux potentiels. Cette direction est notamment motivée par des applications telles que le contrôle de la consommation électrique dans les marchés de l'énergie, où les agents adaptent leur demande en fonction de signaux de prix dépendant de la consommation agrégée.
Le troisième axe étudie la théorie des mécanismes et les problèmes principal-agent dans des populations d'agents apprenants, modélisés sous forme de problèmes d'optimisation bi-niveaux dans lesquels un régulateur conçoit des mécanismes d'incitation tandis que les agents apprennent de manière séquentielle. Les applications incluent notamment la tarification de l'électricité et les mécanismes d'effacement de consommation (demand response), où les mécanismes de prix doivent tenir compte du comportement adaptatif des consommateurs.
De manière générale, ce projet vise à contribuer aux fondements théoriques de l'apprentissage dans les systèmes multi-agents, tout en développant de nouveaux outils algorithmiques et en proposant des applications aux marchés de l'énergie et aux systèmes économiques à grande échelle. La thèse sera encadrée par Alain Durmus (CMAP, École polytechnique), Étienne Boursier (LMO, Université Paris-Saclay) et Antonio Ocello (CREST, ENSAE), dont les expertises couvrent respectivement l'apprentissage statistique et l'optimisation, les jeux à champ moyen et l'apprentissage dans les jeux, ainsi que l'économie mathématique et le design de mécanismes. Développer des méthodes théoriques et algorithmiques pour l'apprentissage séquentiel dans les jeux à champ moyen. Les objectifs principaux sont de concevoir des algorithmes d'apprentissage avec garanties de convergence, de comprendre les équilibres issus des dynamiques d'apprentissage multi-agents, et d'étudier des applications à la conception de mécanismes et aux marchés de l'énergie, notamment pour le contrôle de la consommation électrique.
Le profil recherché
Ce doctorat s'adresse à un étudiant disposant d'une solide formation en mathématiques appliquées, en statistique ou en informatique. Le candidat devra posséder de bonnes bases en probabilités, en optimisation, en Python ou en théorie des jeux, ainsi qu'un intérêt pour l'apprentissage par renforcement ou l'apprentissage dans les jeux.
Une familiarité avec les jeux à champ moyen (Mean Field Games) ou l'apprentissage par renforcement multi-agents constitue un atout mais n'est pas requise. Le candidat devra être à l'aise avec le raisonnement mathématique et motivé par la recherche théorique.