Les missions du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Camille GUINAUDEAU ORCID 0000000172498715 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Les technologies vocales ont connu des avancées rapides ces dernières années, mais l'adaptation des modèles à de nouveaux domaines, en particulier dans des contextes à faibles ressources, reste un défi majeur. L'apprentissage auto-supervisé permet d'améliorer la capacité de généralisation des modèles en exploitant des données non annotées, mais l'ajustement de ces modèles de grande taille demeure coûteux et peut entraîner du surapprentissage lorsque les données annotées sont limitées. Dans ce contexte, les méthodes de Parameter-Efficient Fine-Tuning (PEFT) proposent une alternative efficace en n'ajustant qu'un petit nombre de paramètres spécifiques à la tâche, ce qui réduit considérablement les besoins en calcul et en mémoire tout en limitant les risques de surapprentissage.

Initialement développées pour les modèles de langage de grande taille, les approches PEFT suscitent un intérêt croissant dans le domaine du traitement de la parole. Elles ont été appliquées avec succès à diverses tâches telles que la reconnaissance automatique de la parole, la compréhension du langage parlé, la reconnaissance des émotions ou encore la synthèse vocale. Ces méthodes permettent notamment d'adapter efficacement des modèles existants, de gérer des environnements multilingues, de réduire les biais et d'améliorer les performances dans des contextes où les données sont rares.

La thèse proposée vise à faire progresser ces approches selon trois axes complémentaires. Elle ambitionne d'abord de concevoir de nouvelles méthodes PEFT adaptées aux spécificités temporelles et spectrales du signal vocal. Elle prévoit ensuite de mener une évaluation expérimentale approfondie afin de comparer les performances, la robustesse et la capacité de généralisation de différentes méthodes sur un large éventail de tâches vocales. Enfin, elle entend proposer des outils open-source et des recommandations pratiques pour faciliter l'utilisation de ces techniques dans des systèmes réels, notamment en s'appuyant sur une intégration dans SpeechBrain. L'objectif global est de rapprocher la recherche théorique des applications concrètes afin de rendre les technologies vocales plus accessibles, efficaces et durables. Les technologies vocales ont connu des avancées rapides, alimentant des applications telles que les assistants virtuels et les systèmes contrôlés par la voix ; toutefois, l'adaptation de ces modèles à de nouveaux domaines demeure un défi important, en particulier dans des contextes à faibles ressources. L'apprentissage auto-supervisé (SSL) améliore la généralisation en apprenant à partir de données non annotées, mais l'ajustement fin de grands modèles SSL est coûteux et présente un risque de surapprentissage lorsque les données annotées sont limitées. Cela a suscité un intérêt croissant pour les méthodes de Parameter-Efficient Fine-Tuning (PEFT), qui adaptent les modèles en ne mettant à jour qu'un petit ensemble de paramètres spécifiques à la tâche. Les méthodes PEFT réduisent considérablement les besoins en mémoire et en calcul, ainsi que les risques de surapprentissage, ce qui en fait une solution prometteuse pour une adaptation efficace et flexible des modèles. Elles ont également attiré l'attention en raison de leur capacité à prévenir l'oubli catastrophique et à réduire les coûts computationnels en ne mettant à jour qu'un sous-ensemble restreint de paramètres, tout en conservant la majeure partie du modèle SSL figée. Ces méthodes se répartissent en quatre grandes catégories [Han et al., 2024 ; Prottasha et al., 2025] : les approches additives (par exemple, les adapters), qui introduisent de nouveaux modules [Lester et al., 2021] ; les approches sélectives (par exemple, BitFit), qui ajustent uniquement certains paramètres [Zaken et al., 2022] ; les approches reparamétrées (par exemple, LoRA), qui utilisent des mises à jour de rang faible [Hu et al., 2021] ; et les approches hybrides (par exemple, MAM Adapter), qui combinent plusieurs stratégies [He et al., 2022].

Les approches PEFT ont d'abord été largement étudiées pour les modèles de langage de grande taille (LLM) dans le cadre de diverses tâches de traitement du langage naturel [Houlsby et al., 2019 ; Ruder et al., 2022]. Toutefois, leur application au traitement de la parole est plus récente et suscite un intérêt croissant dans la communauté scientifique. En reconnaissance automatique de la parole (ASR), LoRA parcimonieux a été utilisé pour adapter le modèle Whisper [Radford et al., 2023] à la parole enfantine [Liu et al., 2024], tandis que des matrices LoRA spécifiques à chaque langue ont permis de réduire les interférences linguistiques dans des systèmes ASR multilingues [Song et al., 2024]. Dans des contextes ASR à faibles ressources, la fusion de plusieurs adapters LoRA via une moyenne pondérée apprenable a permis un ajustement efficace de Whisper-Large avec des besoins mémoire réduits [Ghimire et al., 2024]. Plus récemment, les méthodes PEFT ont également été appliquées dans des cadres d'apprentissage fédéré pour l'ASR, où seuls de petits modules d'adaptation sont mis à jour au lieu du modèle complet [Ali et al., 2025]. Au-delà de l'ASR, la combinaison de méthodes PEFT au sein de modèles SSL - par exemple des Bottleneck Adapters insérés après les couches feed-forward des Transformers et LoRA appliqué aux poids d'attention - a permis d'atteindre des performances de pointe en reconnaissance des émotions vocales [Lashkarashvili et al., 2024]. Les techniques basées sur les adapters ont également amélioré les performances en compréhension du langage parlé (SLU) [Kim et al., 2023]. Un modèle unifié a été proposé pour empiler ou fusionner plusieurs adapters spécifiques à différentes tâches afin de prendre en charge efficacement plusieurs tâches de traitement du langage parlé [Suresh et al., 2024]. Pour la réduction des biais, des adapters distincts ont été entraînés pour la tâche principale et pour la correction des biais, puis fusionnés via des mécanismes d'attention afin de corriger les biais sans modifier le modèle de base [Kumar et al., 2023]. Plus récemment encore, des adapters ont été utilisés pour affiner des modèles multilingues de synthèse vocale (Text-to-Speech) pour des langues à faibles ressources, entraînés de manière séquentielle dans un cadre d'apprentissage continu multilingue et combinés à l'aide d'une somme pondérée apprenable [Kwon et al., 2025]. Enfin, des adapters de rang faible ont été entraînés pour personnaliser le modèle Whisper ASR pour des locuteurs népalais, en conservant le modèle principal figé, ce qui a permis de réduire de plus de 99 % le nombre de paramètres entraînables tout en maintenant des performances compétitives [Pantha et al., 2025]. La thèse proposée vise à contribuer à l'avancement des méthodes de PEFT pour les modèles de parole selon trois axes complémentaires. Tout d'abord, sur le plan méthodologique, elle cherche à concevoir et développer une nouvelle approche de PEFT adaptée aux caractéristiques temporelles et spectrales des données vocales. Cela implique la création de modules d'adaptation légers ainsi que de stratégies hybrides d'ajustement fin, permettant de trouver un équilibre entre performance et efficacité dans différentes architectures de traitement de la parole (Transformer [Vaswani et al., 2017], Conformer [Gulati et al., 2020], etc.). Ensuite, sur le plan empirique, ce travail proposera une étude comparative approfondie des méthodes PEFT existantes et proposées, à travers diverses tâches de traitement de la parole telles que la reconnaissance vocale, l'identification du locuteur, l'analyse des émotions et la compréhension du langage parlé. Cette évaluation portera sur leur efficacité, leur robustesse et leur capacité de généralisation dans différentes conditions (acoustiques, linguistiques, liées au locuteur, à la tâche, au domaine, etc.). Enfin, sur le plan pratique, la thèse fournira des outils open-source et des recommandations concrètes afin de faciliter l'application des techniques PEFT dans des systèmes vocaux réels, en particulier dans des contextes multilingues et à faibles ressources. Afin de garantir la reproductibilité, le cadre développé sera implémenté sous forme de plugin pour l'outil SpeechBrain 1, accompagné de modules PEFT pré-entraînés et d'exemples d'utilisation destinés à soutenir les travaux de recherche futurs. L'ensemble de ces contributions vise à combler le fossé entre la recherche théorique et le déploiement pratique, en favorisant des technologies vocales plus accessibles, adaptatives et durables.

Le profil recherché

- Formation : Diplôme de Master (M2) en informatique, avec une préférence pour les candidats ayant une expérience dans les domaines suivants :
- Traitement automatique du langage naturel (TALN / NLP)
- Traitement de la parole
- Apprentissage automatique

- Compétences techniques :
- Maîtrise de Python et familiarité avec des bibliothèques de machine learning telles que TensorFlow, PyTorch ou Keras.
- Expérience en analyse de données et en outils de traitement de la parole.

- Autres compétences :
- Solides capacités d'analyse.
- Capacité à travailler de manière autonome ainsi qu'en collaboration dans un environnement de recherche.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires

L’emploi par métier dans le domaine Mode à Paris