Recherchez une offre d'emploi

Thèse Apprentissage Fédéré Respectueux de la Vie Privée avec des Garanties de Convergence et d'Utilité Améliorées H/F - 75

Description du poste

Institut Polytechnique de Paris École polytechnique
Paris - 75
CDD
Publié le 17 Mars 2026

Établissement : Institut Polytechnique de Paris École polytechnique
École doctorale : Mathématiques Hadamard
Laboratoire de recherche : CMAP - Centre de Mathématiques appliquées
Direction de la thèse : Paul MANGOLD ORCID 0000000202525287
Début de la thèse : 2026-09-01
Date limite de candidature : 2026-04-24T23:59:59

L'apprentissage fédéré est un paradigme central en apprentissage automatique qui permet à plusieurs clients d'entraîner un modèle partagé sans échanger leurs données, avec la promesse de répondre aux enjeux de confidentialité. Il repose fortement sur des méthodes d'optimisation distribuée, dont les propriétés de convergence sont de mieux en mieux comprises. Pourtant, éviter l'échange direct de données ne garantit pas intrinsèquement la confidentialité, et des informations sensibles peuvent encore être déduites à partir des mises à jour de modèle transmises.

L'apprentissage fédéré promet de réduire la quantité de données échangées, ce qui peut aider à protéger la confidentialité. Bien que des garanties formelles de confidentialité puissent être fournies grâce à la confidentialité différentielle, l'apprentissage fédéré n'a malheureusement pas encore été démontré comme produisant une amplification formelle de la confidentialité. Plus précisément, de nombreuses méthodes fédérées reposent sur des procédures d'entraînement local où les clients effectuent plusieurs mises à jour avant de communiquer avec le serveur. Alors que ces mécanismes sont conçus pour réduire la communication, leur interaction formelle avec les garanties de confidentialité différentielle reste insuffisamment caractérisée.

L'objectif de cette thèse de doctorat est de développer des algorithmes d'optimisation fédérée préservant la confidentialité plus efficaces, exploitant des schémas de réduction de communication pour amplifier la confidentialité tout en fournissant des garanties formelles de convergence. La première étape consiste à développer de nouveaux outils théoriques pour analyser les méthodes d'apprentissage fédéré préservant la confidentialité, en modélisant les algorithmes fédérés comme des chaînes de Markov afin d'étudier les propriétés de convergence et de sensibilité.
Le second objectif est de concevoir de nouveaux mécanismes pour réguler l'influence des contributions individuelles sur le modèle global. En effet, les techniques classiques d'optimisation privée, telles que le gradient clipping à chaque itération, ne sont pas entièrement adaptées aux environnements fédérés, car la synchronisation intermittente nécessite de limiter l'influence des utilisateurs sur l'ensemble des phases d'entraînement local plutôt que sur des étapes de gradient isolées. Ce projet vise à développer de nouveaux algorithmes avec des garanties formelles de convergence et d'utilité, basés sur des approches rigoureuses pour contrôler les contributions individuelles dans les mises à jour agrégées.

Dans les dix dernières années, l'apprentissage fédéré s'est développé sur la double promesse de garantir la souveraineté des données ainsi que la protection des données sensibles. S'il permet effectivement à chacun-e de rester maître-sse de ses données, il ne donne aucune garantie formelle de confidentialité.

Cependant, l'apprentissage fédéré permet de réduire la quantité d'informations révélées sur ces données sensibles, car il permet d'apprendre sans échanger ces données directement. En particulier, les méthodes d'apprentissage local permettent de réduire drastiquement la quantité de données échangées. Si, intuitivement, cela est bénéfique pour la confidentialité, il n'existe pour l'instant aucune garantie formelle de ce type de phénomènes : cette thèse vise à répondre à cette question.

L'objectif de cette thèse est de développer de nouvelles méthodes d'apprentissage fédéré exploitant la réduction des informations échangées pour améliorer les garanties de confidentialité, permettant d'obtenir de meilleurs modèles pour une garantie de confidentialité fixée.

Les méthodes utilisées dans cette thèse seront celles de l'optimisation stochastique, de la théorie des chaînes de Markov, de la confidentialité différentielle, de l'apprentissage fédéré, et plus largement de toutes les méthodes de statistiques et algèbre linéaires fondamentales pour l'apprentissage machine.