Les missions du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Systèmes et Applications des Technologies de l'Information et de l'Energie Direction de la thèse : Pascal LARZABAL ORCID 0009000280523049 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Contexte cosmologique

Le fond diffus cosmologique est la première lumière de l'Univers, émise environ 380 000 ans après le Big Bang, mais il ne permet pas d'observer la formation des premières étoiles. Pour explorer cette période dite sombre, les astronomes utilisent la raie à 21 cm de l'hydrogène neutre. Elle permet de sonder l'époque de la réionisation, lorsque les premières étoiles et galaxies ont ionisé le gaz primordial il y a environ 13 milliards d'années. Ce signal, étiré par l'expansion de l'Univers, est aujourd'hui détecté sur terre à basse fréquence par des radiotélescopes. Bien que très riche en informations, il est extrêmement faible et difficile à observer. Une cartographie tridimensionnelle de ce champ permettrait de capturer la richesse des fluctuations spatiales, mais les défis actuels conduisent à privilégier la mesure des fluctuations du spectre de puissance de l'hydrogène pour remonter aux dimensions des structures recherchées. De grands réseaux d'antennes tels que HERA ou le SKA ont été conçus pour mesurer ce spectre.

Problèmatique

Le signal à 21 cm de l'hydrogène issu de l'époque de la réionisation est extrêmement difficile à détecter car il est masqué par des émissions radio d'avant-plan, galactiques et extragalactiques, bien plus intenses. Ces émissions, comme le rayonnement synchrotron de notre galaxie, sont globalement lisses en fréquence, contrairement au signal cosmologique qui présente des fluctuations complexes liées aux structures recherchées de l'Univers. Cette différence permet en théorie de les séparer, mais la tâche reste très difficile. Des instruments comme HERA exploitent certaines zones de l'espace de Fourier où les avant-plans sont moins dominants. Cependant, les interférences radio d'origine humaine (RFI) compliquent encore l'analyse. La pure suppression des visibilités corrompues par ces RFI entraîne des pertes de données et des artefacts qui contaminent les résultats. Des méthodes alternatives, comme l'inpainting ou l'usage de réseaux neuronaux, améliorent la situation mais restent encore insuffisantes.

Objectifs de la thèse

Les méthodes actuelles d'inpainting exploitent rarement à la fois les corrélations spatiales et fréquentielles des données manquantes, pourtant riches en information. Une approche plus robuste consiste à modéliser ces structures via des distributions latentes et à estimer les données absentes par maximum de vraisemblance, en tenant compte de bruits non gaussiens comme les interférences RFI. L'algorithme EM offre un cadre naturel en traitant les données manquantes comme latentes, mais devient intractable pour des modèles complexes. Deux extensions permettent de dépasser cette limite : le VEM, basé sur l'inférence variationnelle, et le SAEM, fondé sur des approximations stochastiques. Ces méthodes sont au coeur de l'apprentissage moderne. Les modèles génératifs profonds, comme les VAE, prolongent cette approche en apprenant une représentation probabiliste des données. Des variantes comme IWAE améliorent l'estimation, tandis que MIWAE adapte ces modèles aux données manquantes. Enfin, des approches récentes d'inférence amortie permettent une estimation rapide et efficace en une seule passe. L'ensemble de ces méthodes, EM, VEM, SAEM, VAE, IWAE, MIWAE et inférence variationnelle amortie, forme une progression cohérente allant des fondements statistiques classiques vers les architectures d'apprentissage profond les plus récentes. L'objectif de cette thèse est de s'appuyer sur cette filiation pour développer des algorithmes adaptés à la reconstruction des visibilités radio-interférométriques et d'en évaluer rigoureusement les performances face aux méthodes de l'état de l'art.
Le fond diffus cosmologique est la première lumière de l'Univers, émise environ 380 000 ans après le Big Bang, mais il ne permet pas d'observer la formation des premières étoiles. Pour explorer cette période dite sombre, les astronomes utilisent la raie à 21 cm de l'hydrogène neutre. Elle permet de sonder l'époque de la réionisation, lorsque les premières étoiles et galaxies ont ionisé le gaz primordial il y a environ 13 milliards d'années. Ce signal, étiré par l'expansion de l'Univers, est aujourd'hui détecté sur terre à basse fréquence par des radiotélescopes. Bien que très riche en informations, il est extrêmement faible et difficile à observer. Une cartographie tridimensionnelle de ce champ permettrait de capturer la richesse des fluctuations spatiales, mais les défis actuels conduisent à privilégier la mesure des fluctuations du spectre de puissance de l'hydrogène pour remonter aux dimensions des structures recherchées. De grands réseaux d'antennes tels que HERA ou le SKA ont été conçus pour mesurer ce spectre. Les méthodes actuelles d'inpainting exploitent rarement à la fois les corrélations spatiales et fréquentielles des données manquantes, pourtant riches en information. Une approche plus robuste consiste à modéliser ces structures via des distributions latentes et à estimer les données absentes par maximum de vraisemblance, en tenant compte de bruits non gaussiens comme les interférences RFI. L'algorithme EM offre un cadre naturel en traitant les données manquantes comme latentes, mais devient intractable pour des modèles complexes. Deux extensions permettent de dépasser cette limite : le VEM, basé sur l'inférence variationnelle, et le SAEM, fondé sur des approximations stochastiques. Ces méthodes sont au coeur de l'apprentissage moderne. Les modèles génératifs profonds, comme les VAE, prolongent cette approche en apprenant une représentation probabiliste des données. Des variantes comme IWAE améliorent l'estimation, tandis que MIWAE adapte ces modèles aux données manquantes. Enfin, des approches récentes d'inférence amortie permettent une estimation rapide et efficace en une seule passe. L'ensemble de ces méthodes, EM, VEM, SAEM, VAE, IWAE, MIWAE et inférence variationnelle amortie, forme une progression cohérente allant des fondements statistiques classiques vers les architectures d'apprentissage profond les plus récentes. L'objectif de cette thèse est de s'appuyer sur cette filiation pour développer des algorithmes adaptés à la reconstruction des visibilités radio-interférométriques et d'en évaluer rigoureusement les performances face aux méthodes de l'état de l'art.

Le profil recherché

Master en traitement du signal ou mathématiques appliquées

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires

L’emploi par métier dans le domaine Mode à Paris