Thèse Avancement des Découvertes et de la Validation dans les Études Génétiques des Maladies Complexes à l'Aide du Transport Optimal. H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Santé publique École doctorale : Santé Publique Laboratoire de recherche : Oncologie computationnelle Direction de la thèse : Marie VERBANCK ORCID 000000021669572X Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-08T23:59:59 Les études d'association pangénomique (GWAS), qui scannent le génome pour identifier des associations entre variants génétiques et traits et maladies complexes (i.e. impliquant plusieurs gènes), ont révolutionné la génétique, conduisant à l'identification de plus d'un million d'associations uniques à ce jour. Cependant, transformer ces associations en une compréhension claire des mécanismes biologiques reste un défi de taille. Cela s'explique par la difficulté à identifier les gènes causaux sous-jacents, les variants étant majoritairement intergéniques et d'effet faible. Aussi, leur validation expérimentale, reposant sur des approaches in vitro et in vivo, reste difficile à transposer à l'humain. Par conséquent, les mécanismes génétiques des maladies complexes restent largement incomprises, malgré leur impact majeur en santé publique.
Ce projet de thèse propose de répondre à ces limites par des stratégies orthogonales aux GWAS classiques, appuyées sur des cadres mathématiques adaptés. Le projet s'articule en deux axes pour 1) répondre au manque de vérité de terrain et aux difficultés d'identification des gènes causaux dans les maladies complexes; 2) étudier la transférabilité des gènes humains aux organismes modèles.
Pour le premier axe, nous proposons d'utiliser les connaissances sur les maladies monogéniques rares (i.e. impliquant un seul gene) pour informer l'identification des gènes causaux dans les maladies complexes. Les maladies monogéniques représentent des knockouts génétiques naturels, associées à une multitude de conséquences phénotypiques documentées dans des bases de données telles que la Human Phenotype Ontology. En supposant qu'une perturbation génique produit une signature phénotypique spécifique, la comparaison entre maladies monogéniques et complexes permet d'associer ces dernières à des gènes via leurs similarités phénotypiques. Pour développer cette méthodologie, nous avons choisi le transport optimal (OT), qui fournit un cadre mathématique permettant de comparer et d'aligner des distributions complexes en identifiant les correspondances minimisant le coût de transport. Les résultats préliminaires sur des simulations et des données réelles sont très encourageants et nous avons l'intention de développer davantage les cadres OT adaptés à nos données spécifiques qui; 1) incluront des connaissances génétique externes pour guider le transport; 2) prendront en compte la structure hiérarchique des signatures phénotypiques, nous permettant de relâcher notre hypothèse biologique.
Le deuxième axe se concentre sur la transférabilité des résultats génétiques aux organismes modèles. Puisque les maladies monogéniques sont des « knockouts génétiques naturels » définis par leurs signatures phénotypiques, nous visons à dépasser l'homologie de séquence traditionnellement utilisée pour définir les gènes orthologues, en comparant directement les signatures phénotypiques des organismes modèles après knockout à celles des maladies monogéniques. De même, OT est particulièrement adapté, et nous visons à développer un cadre de transport optimal multi-source basé sur le barycentre de Wasserstein.
Le projet de thèse aborde les défis de la validation de la recherche en génétique humaine tout en développant de nouveaux cadres OT. Toutes les méthodes et résultats obtenus seront publics, contribuant à de nouvelles pistes pour le développement méthodologique dans le domaine de l'OT et des applications en génétique humaine. L'objectif à long terme est d'améliorer les diagnostics et d'identifier de nouvelles cibles thérapeutiques.
Avec le séquençage et l'analyse initiaux du génome humain en 2001, une nouvelle ère a commencé dans le domaine de la génétique humaine. Ces nouvelles données génétiques d'une ampleur sans précédent devaient révolutionner l'étude des maladies héréditaires complexes (causées par plus d'un gène), tant pour l'élucidation de l'étiologie des maladies que pour les options de diagnostics et thérapeutiques innovants, jusqu'à l'objectif ultime de la médecine personnalisée. C'est ainsi que l'ère du séquençage génomique a commencé, impulsée par les études d'association à l'échelle du génome (GWAS). Les GWAS consistent à mesurer et tester l'effet des variants génétiques de manière génome-wide sur un seul trait d'intérêt. À ce jour, 7 613 publications et plus d'un million d'associations variants-traits uniques ont été rapportées.
Cependant, au cours des 20 dernières années, le domaine de la génétique humaine a connu un véritable changement de paradigme, conduisant à l'émergence de nouveaux concepts et hypothèses biologiques. L'une des découvertes les plus déconcertantes des GWAS est que la majorité des variants identifiés se trouvent dans des régions intergéniques et sont supposés influencer la régulation génique. Cependant, des travaux récents ont soulevé des préoccupations en montrant que les variants génétiques associés aux maladies complexes dans les GWAS présentent un chevauchement limité avec les loci de caractères quantitatifs moléculaires. De plus, malgré le grand nombre d'associations rapportées, seulement une petite fraction a été validée expérimentalement.
Par ailleurs, la plupart des variants sont associés à plus d'un trait ou d'une maladie complexe, un phénomène appelé pléiotropie qui est répandu dans le génome humain et crucial pour notre compréhension de l'architecture des maladies complexes.
Enfin, la plupart des associations avec les traits et maladies complexes comprennent un grand nombre de variants répartis largement dans le génome, illustrant la nature extrêmement polygénique des traits complexes.
Ainsi, à mesure que la recherche avance pour comprendre l'architecture génétique des traits complexes et saisir l'étiologie des maladies héréditaires, de nouveaux paradigmes continuent d'émerger, révélant de plus en plus la complexité des modèles biologiques. Avec ce projet de thèse, nous avons l'intention d'utiliser une approche orthogonale aux GWAS pour exploiter un cadre mathématique en plein essor, à savoir le transport optimal (OT), et l'adapter à la génétique humaine, améliorant les découvertes dans un domaine où le manque de vérité terrain pose souvent un défi majeur.
Le projet de thèse a deux principaux objectifs de recherche interdisciplinaire. Premièrement, il vise à tirer parti des connaissances issues des maladies monogéniques rares, où les mutations de gène unique peuvent révéler des mécanismes biologiques plus clairs, pour informer la compréhension des maladies complexes. Des milliers de gènes ont été identifiés dans les maladies monogéniques rares et produisent des signatures phénotypiques spécifiques. Nous avons l'intention d'utiliser les signatures phénotypiques spécifiques pour développer un cadre de cartographie visant à transférer des connaissances des maladies monogéniques aux maladies complexes, dans l'espoir d'améliorer la vérité terrain pour les maladies complexes. Deuxièmement, le projet abordera les défis de validation des associations génétiques qui reposent inévitablement sur des stratégies in vitro et in vivo, faisant face à des défis significatifs pour le transfert vers l'homme. Nous avons l'intention de développer une méthode pour cartographier les orthologues aux gènes humains sur la base de similitudes phénotypiques, dans l'espoir d'améliorer la transférabilité des résultats des organismes modèles à l'homme.
Pour atteindre ces objectifs, le projet de thèse se concentrera sur le développement de nouveaux cadres de transport optimal adaptés à la génétique. Nous avons choisi de nous concentrer sur le transport optimal car il fournit un cadre mathématique et informatique pour comparer et aligner des distributions complexes en identifiant les correspondances qui minimisent le coût global de transport de masse entre elles.
Le projet s'articule autour de 2 axes de travail qui contiennent à la fois des développements méthodologiques ainsi que des applications. Le premier axe vise à transporter les maladies monogéniques sur les maladies complexes. Pour cela, nous proposons d'utiliser le transport optimal et de développer de nouveaux cadres de transport dédiés à notre question biologique. Le premier axe consistera à intégrer le graphe (DAG) de représentation des signatures phénotypiques dans le calcul des distances puis le transport des maladies monogéniques sur les maladies complexes. En effet les conséquences phénotypiques des mutations sont encodées dans un graphe hiérarchique (DAG), il sera donc primordial de développer des outils de représentations ainsi que des métriques adaptées. Le premier axe se focalisera également sur l'intégration d'information extérieure pour guider le transport des maladies monogéniques vers les maladies complexes. Le second axe sera dédié à l'étude de la transferabilité des gènes orthologues des organismes modèles aux gènes humains. Pour cela, nous developperons un cadre de transport optimal muti-source permettant de transporter les gènes humains (des maladies monogéniques) vers les gènes orthologues en utilisant leurs signatures phenotypiques issues d'expériences de KO de gènes.
Le profil recherché
- Le candidat doit avoir un diplôme de Master ou équivalent en mathématiques appliquées, statistique, ou un domaine connexe, avec des résultats académiques excellents.
- Une maîtrise approfondie des concepts et techniques en mathématiques appliquées, incluant l'optimisation, les probabilités et les statistiques.
- Solides compétences en programmation et maîtrise des langages de programmation couramment utilisés en statistique et en génétique, tels que R, Python, ou autres outils pertinents.
- Une bonne compréhension des principes de base en génétique et une appétence pour les applications de la statistique dans ce domaine.
- Une expérience préalable en recherche, lors d'un stage sera appréciée.
- Aptitude à analyser des données complexes, à interpréter des résultats et à formuler des conclusions pertinentes.
- Compétences en communication écrite et orale, permettant de présenter clairement les résultats de recherche et de collaborer efficacement avec les autres membres de l'équipe.
- Capacité à travailler de manière autonome, à prendre des initiatives et à gérer son temps efficacement.
- Un intérêt marqué pour la recherche et une motivation à contribuer de manière significative au domaine d'étude.