Thèse Étude du Biais Implicite en Apprentissage Profond Via une Analyse d'Ordre Supérieur de la Perte H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : UNIVERSITE PARIS DAUPHINE - PSL École doctorale : SDOSE Sciences de la Décision, des Organisations, de la Société et de l'Echange Laboratoire de recherche : Laboratoire d'Analyse et de Modélisation de Systèmes d'Aide à la Décision Direction de la thèse : PIERRE WOLINSKI ORCID 0000000310070144 Début de la thèse : 2026-11-01 Date limite de candidature : 2026-05-13T23:59:59 La théorie de l'apprentissage profond est un domaine de recherche dynamique, qui occupe une place centrale entre les résultats empiriques de l'apprentissage profond et les méthodes classiques d'apprentissage automatique, déjà très étudiées. Dans ce domaine, l'étude de la trajectoire d'apprentissage d'un réseau de neurones est essentielle pour mieux comprendre comment celui-ci converge rapidement vers un modèle performant sur un grand nombre de tâches, tant du point de vue de l'optimisation que de la généralisation.
L'exploitation des résultats théoriques en optimisation des réseaux de neurones est fondamentale pour améliorer nos modèles et nos algorithmes d'apprentissage à un coût de calcul raisonnable, en particulier aujourd'hui, où la question de la consommation énergétique de l'IA prend de plus en plus d'importance.
Ces dernières années, une piste de recherche prometteuse est étudiée au sein de la communauté de la théorie de l'apprentissage profond : les résultats de l'apprentissage profond découlent d'une interaction entre l'algorithme d'entraînement et la surparamétrisation des modèles.
Ainsi, contrairement au point de vue classique en apprentissage statistique, la capacité de généralisation des réseaux de neurones n'est pas une propriété intrinsèque du modèle optimal, indépendante de l'optimisation. Ce biais implicite de l'entraînement est une propriété émergente du modèle et de l'algorithme d'entraînement, qui n'est pas imposée explicitement. Le biais implicite a été étudié et observé pour plusieurs catégories de modèles et d'algorithmes, mais il manque encore un résultat théorique rigoureux dans le cas des réseaux de neurones.
Il est donc essentiel d'approfondir notre compréhension de ce phénomène afin de découvrir de nouveaux algorithmes d'optimisation adaptés à des architectures de réseaux plus petites, dont l'entraînement nécessite beaucoup moins de puissance de calcul que les modèles actuellement utilisés. L'étude du biais implicite implique généralement une analyse fine de la trajectoire d'apprentissage d'un modèle sous un algorithme d'apprentissage spécifique. Par exemple, l'algorithme de descente stochastique du gradient (SGD) pourrait être modélisé à l'aide d'une version déterministe et continue de celui-ci, le flux de gradient.
Ces dernières années, les approches fondées sur des hypothèses de régularité de la perte ou l'approximation du flux de gradient ont été remises en question par le phénomène de l'Edge of Stability (EoS) [Cohen et al., 2021 ; Damian et al., 2023]. Celui-ci se produit lors de l'entraînement de réseaux à l'aide de la SGD. L'EoS s'explique en partie par l'heuristique des central flows [Cohen et al., 2025] (qui va au-delà de l'approche du flux de gradient), qui met en évidence un biais implicite de la descente de gradient vers des régions où la valeur propre maximale de la hessienne de la perte n'est pas trop grande. Le doctorant étudiera l'EoS d'un point de vue théorique.
Malgré leur caractère heuristique, les travaux sur les central flows montrent l'importance des dérivées d'ordre supérieur [Pearlmutter, 1994 ; Wolinski, 2025] dans le biais implicite. Comme la courbure de la perte d'apprentissage est liée aux propriétés de généralisation des réseaux neuronaux, le doctorant établira un lien entre l'EoS, les dérivées d'ordre supérieur et la généralisation.
À terme, le doctorant pourra proposer de nouveaux algorithmes d'apprentissage, afin d'améliorer l'optimisation et la généralisation. Concernant l'optimisation, une meilleure compréhension de l'EoS grâce aux dérivées d'ordre supérieur permettra de déterminer à quel point l'EoS est souhaitable durant l'apprentissage. Grâce à cette meilleure compréhension, nous serons en mesure d'utiliser les dérivées d'ordre supérieur pour proposer de nouveaux algorithmes d'apprentissage, par exemple basés sur Newton [Arbel et al., 2023 ; Royer et al., 2020 ; Nesterov et Polyak, 2006]. Deep learning theory is an active field of research, which occupies a central place between the outstanding empirical results of deep learning (e.g., computer vision, natural language processing...) and the well-studied traditional machine learning methods. In this field, studying the training trajectory of a neural network is a key to better understand how it converges quickly to a well-performing model on so many tasks, both from an optimization and a generalization point of view. Leveraging theoretical results in neural network optimization is fundamental to improve our models and training algorithms with a reasonable computational cost, especially at a time when the issue of AI energy consumption is becoming increasingly important.
In particular, over the last years, a promising research direction is being studied in the deep learning theory community: the impressive results of deep learning emerge from a subtle interaction between the training algorithm and the overparameterization of the models (i.e., models with many redundant parameters, which include most of neural networks).
Thus, contrary to the classical point of view in statistical learning, the ability of neural networks to generalize is not an intrinsic property of the optimal model, independent of the optimization process. This implicit bias of the training process is an emerging property of the model and training algorithm, which is not enforced explicitly. The implicit bias has been studied and observed for several classes of models and algorithms, but a rigorous theoretical result is still missing in the case of generic neural networks.
Improving our understanding of this phenomenon is then crucial to discover new optimization algorithms adapted to smaller neural
network architectures, that require much less computational power to train than the models that are currently used.
Le profil recherché
Mathématiques : optimisation, théorie des réseaux de neurones, équations différentielles.
Informatique : entraînement de réseaux de neurones, bibliothèque PyTorch, git, gestion de lancements d'expériences sur cluster.