Recherchez une offre d'emploi
Thèse Apprentissage Auto-Supervisé Efficace en Paramètres pour les Modèles de Parole H/F - 75
Description du poste
- Université Paris-Saclay GS Informatique et sciences du numérique
-
Paris - 75
-
CDD
-
Publié le 17 Mars 2026
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique
École doctorale : Sciences et Technologies de l'Information et de la Communication
Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique
Direction de la thèse : Sophie ROSSET ORCID 0000000268654989
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-08-01T23:59:59
Les technologies de la parole ont connu une évolution rapide ces dernières années, donnant naissance à un large éventail d'applications telles que les assistants vocaux, la transcription automatique et les systèmes à commande vocale. Cependant, l'adaptation de ces grands modèles de parole à de nouveaux domaines, langues ou locuteurs demeure un défi majeur, en particulier dans les contextes à faibles ressources où les données annotées sont rares. L'apprentissage auto-supervisé (Self-Supervised Learning, SSL) a profondément transformé le domaine en permettant aux modèles d'apprendre des représentations de la parole robustes et généralisables à partir d'un vaste volume de données non annotées, réduisant ainsi la dépendance aux corpus étiquetés. Néanmoins, le réglage fin (fine-tuning) de ces grands modèles SSL pour des tâches spécifiques reste coûteux et entraîne souvent un surapprentissage lorsque les données annotées sont limitées. Pour surmonter ces difficultés, les méthodes de Fine-tuning efficace en paramètres (Parameter-Efficient Fine-Tuning, PEFT) ont émergé comme une alternative prometteuse, permettant l'adaptation des modèles en ne mettant à jour qu'un petit sous-ensemble de paramètres spécifiques à la tâche, tout en maintenant la majorité du modèle préentraîné figée. Les approches PEFT réduisent considérablement les besoins en calcul et en mémoire, limitent le surapprentissage et préservent les connaissances générales acquises lors de la phase de préentraînement SSL. Initialement développées pour les modèles de langage, elles ont récemment été appliquées avec succès à diverses tâches de traitement de la parole telles que la reconnaissance automatique de la parole (ASR), la reconnaissance des émotions et l'adaptation multilingue, démontrant une forte efficacité et une bonne capacité de généralisation dans les scénarios à faibles ressources.
La thèse proposée vise à faire progresser les méthodes PEFT pour les modèles de parole selon trois axes complémentaires. Sur le plan méthodologique, elle cherchera à concevoir de nouvelles stratégies PEFT adaptées aux propriétés temporelles et spectrales du signal vocal, en développant des modules d'adaptation hybrides et légers compatibles avec des architectures telles que les Transformers et les Conformers. Sur le plan empirique, elle proposera une étude de comparaison à grande échelle des méthodes existantes et nouvelles à travers plusieurs tâches de traitement de la parole (reconnaissance, identification du locuteur, analyse des émotions, compréhension orale), en évaluant leur efficacité, leur robustesse et leur capacité de généralisation dans des conditions acoustiques, linguistiques et de domaine variées. Enfin, sur le plan pratique, la thèse fournira des outils open source et des lignes directrices pour faciliter l'adoption des techniques PEFT dans des systèmes réels, en particulier pour les contextes multilingues et à faibles ressources. Le cadre sera implémenté sous forme de module complémentaire au sein de l'outil SpeechBrain et inclura des modules préentraînés ainsi que des exemples reproductibles afin de soutenir les futurs travaux de recherche. Au final , cette thèse ambitionne de combler le fossé entre recherche théorique et application pratique, et de contribuer au développement de technologies vocales plus adaptatives, durables et inclusives grâce à la combinaison de l'apprentissage auto-supervisé et de l'ajustement fin efficace en paramètres.
Speech technologies have advanced rapidly, powering applications such as virtual assistants and voice-controlled systems; however, adapting these models to new domains remains a significant challenge, particularly in low- resource settings.
Self-supervised learning (SSL) improves generalization by learning from unlabeled data, yet fine-tuning large SSL models is costly and risks overfitting with limited labeled data.
This has driven interest in Parameter-Efficient Fine-Tuning (PEFT) methods, which adapt models by updat- ing only a small set of task-specific parameters. PEFT significantly reduces memory, computation, and overfitting risks, making it a promising solution for efficient and flexible model adaptation. PEFT methods have gained interest for their ability to prevent catastrophic forgetting and reduce computational costs by updating only a small subset of task-specific parameters while keeping most of the SSL model frozen. They fall into four main categories [Han et al., 2024]: Additive PEFT (e.g., adapters) that introduce new modules [Lester et al., 2021]; Selective PEFT (e.g., BitFit) that fine-tune selected parameters [Zaken et al., 2022]; Re-parameterized PEFT (e.g., LoRA) using low-rank updates [Hu et al., 2021]; and Hybrid PEFT (e.g., MAM Adapter) that combine multiple strategies [He et al., ].
PEFT approaches have been initially and widely studied for Large Language Models (LLM) in the context of various natural language processing tasks [Houlsby et al., 2019, Ruder et al., 2022]. However, their appli- cation to speech processing tasks is a more recent development and is gaining increasing attention within the research community. In automatic speech recognition (ASR), sparse LoRA has been applied to adapt Whisper [Radford et al., 2023] for child speech [Liu et al., 2024], and language-specific LoRA matrices have helped reduce language interference in multilingual ASR [Song et al., 2024]. In low-resource ASR, merging multiple LoRA adapters through learnable weighted averaging has enabled efficient fine-tuning of Whisper- Large with reduced memory requirements [Ghimire et al., 2024]. Recently, PEFT methods have also been applied in federated learning frameworks for ASR, where only small adapter modules are updated instead of the full model [Ali et al., 2025]. Beyond ASR, combining PEFT methods within SSL models-such as Bot- tleneck Adapters [Houlsby et al., 2019] after Transformer feed-forward layers and LoRA applied to attention weights-has led to state-of-the-art results in speech emotion recognition [Lashkarashvili et al., 2024]. Adapter- based techniques have also improved performance spoken language understanding (SLU) [Kim et al., 2023]. A unified model is designed to stack or fuse multiple task-specific adapters to efficiently support multiple Spoken
Language Processing Tasks [Suresh et al., 2024]. For bias mitigation, separate adapters were trained for pri- mary and debiasing tasks, which are fused via attention mechanisms to correct bias without altering the base model [Kumar et al., 2023]. Most recently, adapters have been used to fine-tune multilingual Text To Speech models for low-resource languages [Kwon et al., 2025], trained sequentially in a cross-lingual continual learning setup and combined using a learnable weighted sum. Low-rank adapters were trained to personalize the Whisper ASR model for Nepali speakers, keeping the main model frozen, reducing trainable parameters by over 99% while maintaining competitive performance [Pantha et al., 2025].
The proposed thesis aims to contribute to the advancement of PEFT methods for speech models through three complementary directions. First, on the methodological level, it seeks to design and develop a novel PEFT approach tailored to the temporal and spectral characteristics of speech data. This involves creating lightweight adaptation modules and hybrid fine-tuning strategies that balance performance and efficiency in different speech architectures (Transformer [Vaswani et al., 2017], Conformer [Gulati et al., 2020], ..). Second, on the empirical level, the work will provide a comprehensive benchmarking study of existing and proposed PEFT methods across various speech tasks (speech recognition, speaker identification, emotion analysis, spoken language understanding,..) evaluating their efficiency, robustness, and generalization under different conditions (acoustic, linguistic, speaker, task, domaine, ...). Finally, on the practical level, the thesis will deliver open- source tools and concrete guidelines to facilitate the application of PEFT techniques in real-world speech systems, particularly for low-resource, multilingual scenarios. To ensure reproducibility, the framework we will be implemented as a plug-in to the SpeechBrain 1 toolkit, accompanied by the release of pre-trained PEFT modules and example recipes to support further research works. Together, these contributions aim to bridge the gap between theoretical research and practical deployment, promoting more accessible, adaptive, and sustainable speech technologies.
apprentissage auto-supervisé, fine-tuning efficace en paramètre, parole
Offres similaires
Gestionnaire de Paie en Alternance H/F
-
Walter Learning
-
Paris 2e - 75
-
Alternance
-
21 Mars 2026
Responsable de Magasin H/F
-
Promod
-
Paris 15e - 75
-
CDI
-
21 Mars 2026
Analyste Financier H/F
-
Team.is
-
Paris 16e - 75
-
CDI
-
21 Mars 2026
Recherches similaires
Déposez votre CV
Soyez visible par les entreprises qui recrutent à Paris.
Chiffres clés de l'emploi à Paris
- Taux de chomage : 9%
- Population : 2165423
- Médiane niveau de vie : 28570€/an
- Demandeurs d'emploi : 205650
- Actifs : 1177663
- Nombres d'entreprises : 490838
Sources :
Un site du réseaux :