Recherchez une offre d'emploi

Thèse Déploiement d'Algorithmes de Factorisation en Matrices Nonnégatives pour la Transcription Automatique de Musique H/F - 75

Description du poste

Institut Polytechnique de Paris Télécom Paris
Paris - 75
CDD
Publié le 17 Mars 2026

Établissement : Institut Polytechnique de Paris Télécom Paris
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information
Direction de la thèse : Roland BADEAU ORCID 0000000296306877
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-15T23:59:59

La transcription automatique de la musique [Bhattarai23] consiste à retrouver à partir d'un enregistrement musical quelles notes ont été jouées, à quel instant et pour quelle durée. Les solutions commerciales existantes (eg. basicpitch), offrent des transcriptions souvent partiellement erronées ; les améliorer aurait donc un fort impact industriel. Comme plusieurs notes sont généralement jouées en même temps, nous proposons d'attaquer la transcription automatique sous l'angle de la Séparation Aveugle de Sources [Comon10]. Le jeu de données XR^(m ×t) considéré, contenant l'amplitude en représentation temps-fréquence du signal audio, est alors supposé provenir de mélanges de signaux élémentaires, appelés sources SR^(n×t). Les données peuvent alors se décomposer en X=AS, où les coefficients de A et S correspondent respectivement aux spectres fréquentiels des notes jouées et aux activations temporelles de ces notes. La positivité des coefficients de A et S conduit naturellement à utiliser la factorisation en matrices non-négatives (NMF - [Smaragdis03]) qui, malgré de nombreuses garanties théoriques, peut toutefois souffrir de performances décevantes face à des modèles supervisés récents utilisant l'apprentissage profond.

Afin d'améliorer les résultats de la NMF pour la transcription, nous proposons d'introduire de la supervision dans le modèle à travers des données d'entrainement, ici des couples (enregistrement audio, fichier MIDI correspondant), par la méthode du déploiement d'algorithmes [Monga21]. Comparée aux méthodes « boites noires » d'apprentissage profond, l'approche de déploiement proposée est plus interprétable et plus frugale en données d'entraînement [Monga21] (permettant d'espérer mieux généraliser à de nouveaux instruments). Nous nous baserons sur nos travaux préliminaires [Kervazo24], où une stratégie similaire a été proposée en imagerie satellitaire. L'extension de ces travaux à la transcription automatique audio pose un certain nombre de difficultés pratiques et formelles : 1) Le passage à l'échelle de l'algorithme déplié pour les données audio ; 2) L'utilisation d'une fonction de perte adaptée (Kullback-Leibler) ; 3) L'extension à un modèle NMF convolutif [Wu22], plus réaliste pour des notes de musiques que le modèle linéaire ; 4) La proposition de garanties théoriques, par exemple sur la fonction de coût réellement minimisée par l'algorithme déplié.
Ce projet fera l'objet de collaborations internes à Télécom Paris (équipes IMAGES/S2A) et externes (CREATIS).

Bibliographie :
[Bhattarai23] Bhattarai et al. (2023). A Comprehensive Review on Music Transcription. Applied Sciences.
[Comon10] Comon et al. (2010). Handbook of Blind Source Separation: Independent component analysis and applications. Academic press.
[Smaragdis03] Smaragdis et al. (2003). Non-negative matrix factorization for polyphonic music transcription. In 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics
[Monga21] Monga et al. (2021). Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing. IEEE Signal Processing Magazine
[Kervazo24] Kervazo et al. (2024). Deep unrolling of the multiplicative updates algorithm for blind source separation, with application to hyperspectral unmixing. In 2024 32nd European Signal Processing Conference (EUSIPCO)
[Wu22] Wu et al. (2022). Semi-Supervised Convolutive NMF for Automatic Piano Transcription. In Sound and Music Computing 2022.

La transcription automatique de la musique [Bhattarai23] consiste à retrouver à partir d'un enregistrement musical quelles notes ont été jouées, à quel instant et pour quelle durée. Les solutions commerciales existantes (eg. basicpitch), offrent des transcriptions souvent partiellement erronées ; les améliorer aurait donc un fort impact industriel. Comme plusieurs notes sont généralement jouées en même temps, nous proposons d'attaquer la transcription automatique sous l'angle de la Séparation Aveugle de Sources [Comon10]. Le jeu de données XR^(m ×t) considéré, contenant l'amplitude en représentation temps-fréquence du signal audio, est alors supposé provenir de mélanges de signaux élémentaires, appelés sources SR^(n×t). Les données peuvent alors se décomposer en X=AS, où les coefficients de A et S correspondent respectivement aux spectres fréquentiels des notes jouées et aux activations temporelles de ces notes. La positivité des coefficients de A et S conduit naturellement à utiliser la factorisation en matrices non-négatives (NMF - [Smaragdis03]) qui, malgré de nombreuses garanties théoriques, peut toutefois souffrir de performances décevantes face à des modèles supervisés récents utilisant l'apprentissage profond.