Les missions du poste

Établissement : Institut Polytechnique de Paris Télécom Paris
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information
Direction de la thèse : Aslan TCHAMKERTEN
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-06-01T23:59:59Les systèmes modernes d'apprentissage automatique obtiennent des performances prédictives remarquables tout en induisant simultanément des représentations compressées des données. Les grands modèles de langage, les vision transformers et les modèles de diffusion présentent tous la régularité empirique selon laquelle 'une meilleure prédiction induit une compression implicite plus forte'. Toutefois, cette « compression par prédiction » s'accompagne d'un coût computationnel extrêmement élevé. À l'inverse, les algorithmes de compression classiques tels que Lempel-Ziv (LZ77/78) ou la transformation de Burrows-Wheeler (BWT) sont beaucoup plus rapides mais n'atteignent généralement pas les taux de compression obtenus par les compresseurs modernes fondés sur l'apprentissage automatique. Par exemple, sur des jeux de données standard tels que enwiki8/9, les schémas de compression ML les plus performants atteignent des taux environ deux fois meilleurs que les méthodes classiques, mais sont environ dix mille fois plus lents !

Voir document pdf

Le profil recherché

Etudiant à l'Ecole Polytechnique éligible pour une AMX. Background en théorie de l'information, proba./stat. en grande dimension, ou algorithmique serait un plus.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires