Recherchez une offre d'emploi

Thèse Codage Vidéo Volumétrique Orienté Tâche H/F - 75

Description du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique
École doctorale : Sciences et Technologies de l'Information et de la Communication
Laboratoire de recherche : Laboratoire des Signaux et Systèmes
Direction de la thèse : Giuseppe VALENZISE ORCID 0000000258405743
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-07-15T23:59:59

Les vidéos volumétriques et nuages de points 3D, à la base d'applications telles que la réalité étendue ou la conduite autonome, posent des défis majeurs de compression en raison de leur taille. Contrairement aux codecs traditionnels, principalement optimisés pour la qualité perceptuelle humaine, de nombreux scénarios actuels impliquent une consommation directe des contenus 3D par des systèmes d'intelligence artificielle afin d'exécuter des tâches telles que la détection, la segmentation ou la compréhension de scène. Dans ce contexte, l'objectif n'est plus uniquement la reconstruction fidèle, mais la transmission de l'information pertinente pour la tâche.

Cette thèse vise à concevoir de nouveaux schémas de codage orientés tâche, scalables et basés sur l'apprentissage, pour la compression de contenus volumétriques dynamiques. L'objectif est de développer des représentations latentes compactes permettant (i) d'adapter le débit aux besoins de différentes tâches de vision, (ii) de mutualiser l'information partagée entre plusieurs tâches afin d'améliorer l'efficacité globale, et (iii) de proposer des mécanismes de scalabilité offrant différents niveaux de reconstruction ou de performance machine.

Un accent particulier sera mis sur les nouvelles représentations de scène telles que le 3D Gaussian Splatting (3DGS) et le rendu différentiable, qui offrent un cadre prometteur pour la modélisation compacte de scènes 3D et l'intégration d'approches génératives dans la compression. Les principaux défis scientifiques incluent l'utilisation de principes issus de la théorie de l'information (par ex., Information Bottleneck) pour la modélisation du comportement débit-distortion-performance de la tâche de vision, l'allocation optimale du débit dans des scénarios multi-tâches, ainsi que l'extension du compromis débit-distorsion-perception à des usages combinant performance machine et interprétabilité humaine.

Cette thèse s'inscrit dans le cadre du projet ANR PICNICS (ANR-25-CE48-5369), en collaboration entre le L2S (Université Paris-Saclay/CNRS), XLIM (Université de Poitiers) et LIP6 (Sorbonne Université). Le démarrage est prévu en octobre 2026.

3D point clouds (PCs) play a crucial role in transmitting and storing immersive visual content and 3D visual data across a broad spectrum of applications, including extended reality, autonomous driving, construction, telemedicine, cultural heritage, and more.
Storing and transmitting 3D point clouds demands a significant amount of resources, calling for the development of innovative point cloud compression techniques. Traditionally, compression schemes for both 2D and 3D visual data have focused on maximizing the visual quality of experience as perceived by human observers, while minimizing transmission bitrate. However, with the increasing deployment of Artificial Intelligence (AI) applications, a significant portion of transmitted video in the near future is expected to be consumed by machines to execute various vision tasks, with human inspection needed only sporadically to verify machine-generated results.
Developing visual communications for both humans and machines requires developing novel science and engineering principles to achieve optimal coding designs. On one hand, since a capacity-limited channel is integrated into the information pathway of an AI model, the extracted features undergo compression before being used for task computation, making the AI model's performance dependent on the compression quality of the received features. On the other hand, the machine vision task requires less information (lower bitrate) than reconstructing the input point cloud.

The objective of the thesis is to develop compact latent representations that enable (i) adapting the bitrate to the needs of different vision tasks, (ii) sharing information across multiple tasks in order to improve overall coding efficiency, and (iii) providing scalability mechanisms offering different levels of reconstruction quality or machine performance.

Je postule sur HelloWork

Offres similaires

Déposez votre CV

Soyez visible par les entreprises qui recrutent à Paris.

J'y vais !

Chiffres clés de l'emploi à Paris

  • Taux de chomage : 9%
  • Population : 2165423
  • Médiane niveau de vie : 28570€/an
  • Demandeurs d'emploi : 205650
  • Actifs : 1177663
  • Nombres d'entreprises : 490838

Sources :


Un site du réseaux :

Logo HelloWork