Recherchez une offre d'emploi
Thèse Modèles Génératifs Profonds pour Modéliser et Prédire les Modifications Microbiennes Associées à l'Émergence de Maladies H/F - 75
Description du poste
- Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation
-
Paris - 75
-
CDD
-
Publié le 18 Mars 2026
Établissement : Université Paris-Saclay GS Biosphera - Biologie, Société, Ecologie & Environnement, Ressources, Agriculture & Alimentation
École doctorale : Agriculture, Alimentation, Biologie, Environnement et Santé
Laboratoire de recherche : Metagenopolis
Direction de la thèse : Magali BERLAND ORCID 0000000267625350
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-11T23:59:59Ce projet vise à développer des modèles génératifs profonds pour analyser et prédire les changements du microbiome intestinal liés à l'apparition de la maladie en utilisant les données métagénomiques du projet Le French Gut. En exploitant les auto-encodeurs variationnels (VAE), les réseaux antagonistes génératifs (GAN) et les modèles de diffusion, ce projet de thèse est structuré autour de trois objectifs : (1) générer des profils de microbiome synthétiques réalistes et diversifiés afin d'augmenter les jeux de données d'entraînement et renforcer les modèles prédictifs ; (2) développer des modèles génératifs interprétables en contraignant l'espace latent à refléter des structures biologiquement pertinentes ; (3) apprendre des représentations denses du microbiome capables de prédire le phénotype de l'hôte, notamment le risque de développer certaines pathologies. Ce travail abordera les défis à l'intersection de l'intelligence artificielle et de la science du microbiome et ouvrira la voie à des outils d'aide au diagnostic et à la stratification des patients, renforçant la médecine préventive et personnalisée. Sur le plan socio-économique, il contribuera à anticiper l'émergence de maladies chroniques, à optimiser les politiques de santé publique et à soutenir l'innovation biomédicale à l'interface entre intelligence artificielle et microbiome.
Le microbiome intestinal joue un rôle central dans la régulation du métabolisme, de l'immunité et de la susceptibilité à de nombreuses maladies chroniques, dont les troubles métaboliques, la cirrhose hépatique et certaines affections articulaires [1-5]. La dysbiose est reconnue comme un facteur associé à ces pathologies, mais la prédiction des altérations microbiennes précoces reste difficile en raison de la complexité intrinsèque des données métagénomiques : grande dimensionnalité, structure compositionnelle (somme des abondances fixe), sparsité élevée, hétérogénéité inter- et intra-individuelle. Les méthodes classiques d'analyse statistique ou de machine learning supervisé peinent à capturer cette complexité et manquent de généralisabilité [6]. Les modèles génératifs profonds (VAE, GAN, modèles de diffusion) offrent des perspectives prometteuses pour surmonter ces limites en apprenant des représentations latentes riches, en générant des données synthétiques réalistes et en intégrant des contraintes structurelles [7-8]. Des approches comme MB-GAN [9], phylaGAN [10] et DeepBioSim [11] ont déjà démontré la faisabilité de la génération de profils microbiens synthétiques, mais aucune n'intègre de manière systématique les connaissances biologiques structurantes (phylogénie, réseaux d'interaction, annotations fonctionnelles) pour améliorer l'interprétabilité et la plausibilité des modèles. Le projet s'appuie sur la cohorte « Le French Gut » (10 000 échantillons séquencés à ce jour), qui fournit un jeu de données métagénomiques couplées à des métadonnées cliniques, nutritionnelles et comportementales, ainsi que sur l'accès autorisé au SNDS pour la validation prospective des signatures prédictives.
1. Générer des profils microbiens synthétiques réalistes et diversifiés à l'aide d'auto-encodeurs variationnels (VAE), de réseaux antagonistes génératifs (GAN) et de modèles de diffusion, afin d'enrichir les jeux de données d'entraînement et renforcer la robustesse des modèles prédictifs.
2. Développer des architectures génératives interprétables en intégrant explicitement des connaissances biologiques structurantes (phylogénie, interactions écologiques, annotations fonctionnelles métaboliques) pour contraindre l'espace latent et améliorer la plausibilité biologique des données générées.
3. Apprendre des représentations latentes denses du microbiome capables de prédire le phénotype de l'hôte, en particulier les risques précoces d'émergence de maladies chroniques, à partir des données de la cohorte « Le French Gut » couplées au Système National des Données de Santé (SNDS).
Le projet adopte une approche en trois volets :
1. Comparaison et adaptation des modèles génératifs : Implémentation et évaluation comparative des VAE, GAN et modèles de diffusion sur les données métagénomiques du projet Le French Gut et des bases publiques (jusqu'à 100 000 échantillons), en adaptant les fonctions de perte (ex. : binomiale négative inflatée en zéro) aux spécificités sparses et compositionnelles des données, et en intégrant des techniques d'apprentissage contrastif pour capturer les dépendances biologiques essentielles.
2. Intégration de contraintes biologiques : Structuration de l'espace latent via (i) des graphes phylogénétiques ou de co-abondance, (ii) des contraintes de contiguïté reflétant les distances phylogénétiques entre espèces, et (iii) une régularisation guidée par des annotations fonctionnelles (KEGG, Gene Ontology) [12-14].
3. Application biomédicale : Extraction des représentations latentes pour développer des modèles prédictifs de l'état de santé de l'hôte, en les reliant aux métadonnées cliniques et de mode de vie via le SNDS, dans une optique prospective d'identification de signatures microbiennes précoces de maladies chroniques. Les performances seront évaluées par comparaison avec des méthodes de machine learning classiques et mesurées sur des métriques adaptées à la génération et à la prédiction.
Offres similaires
Biologiste H/F
-
SYNLAB
-
Paris - 75
-
CDI
-
6 Mars 2026
Biologiste Laboratoire de Proximité Cddh - F 75 H/F
-
Candidats
-
Paris - 75
-
CDD
-
6 Mars 2026
Ingénieur en Biologie Animale Auprès du Professeur Sonia Garel H/F
-
Collège de France
-
Paris - 75
-
CDD
-
27 Février 2026
Recherches similaires
Déposez votre CV
Soyez visible par les entreprises qui recrutent à Paris.
Chiffres clés de l'emploi à Paris
- Taux de chomage : 9%
- Population : 2165423
- Médiane niveau de vie : 28570€/an
- Demandeurs d'emploi : 205650
- Actifs : 1177663
- Nombres d'entreprises : 490838
Sources :
Un site du réseaux :