Thèse Modèles Fondamentaux Multimodaux pour les Neurosciences H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris Télécom Paris École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information Direction de la thèse : Van Tâm NGUYEN Début de la thèse : 2026-10-01 Date limite de candidature : 2026-09-30T23:59:59 Les avancées en neurosciences s'appuient sur des données complexes et hétérogènes, allant de l'électroencéphalographie (EEG) à haute résolution temporelle et de l'imagerie par résonance magnétique fonctionnelle/structurale (fMRI/sMRI) aux dossiers cliniques et aux profils génomiques. Les développements récents en apprentissage automatique, et plus particulièrement en apprentissage profond, ont permis la conception de modèles fondamentaux à grande échelle [22], robustes et capables de bien généraliser à travers différentes distributions de données, contextes et applications. Bien que l'attention se soit majoritairement portée sur les grands modèles de langage (LLMs), utilisés pour l'apprentissage à partir de dossiers cliniques textuels, plusieurs initiatives ont visé à développer des modèles fondamentaux pour d'autres modalités de neuroimagerie et de signaux biologiques. Les modèles fondamentaux émergents pour l'EEG [1, 2, 3, 4, 5] ont montré un potentiel prometteur pour la modélisation et l'analyse de signaux EEG complexes, qui présentent typiquement un faible rapport signal/bruit et une forte variabilité intra- et inter-sujets. Ce n'est que très récemment que des tentatives ont été faites pour développer de tels modèles fondamentaux pour les données fMRI, en exploitant des cohortes à grande échelle afin de modéliser l'activité cérébrale [6, 7, 8, 19].
La plupart de ces travaux développent des modèles pour des modalités uniques de manière isolée, négligeant l'information complémentaire que fournissent les différentes données de neuroimagerie et cliniques. Ainsi, l'intégration et l'analyse de données multimodales peuvent permettre une meilleure compréhension des mécanismes neurologiques sous-jacents qui gouvernent le comportement et la maladie. De plus, les tentatives actuelles, qu'elles soient uni- ou multimodales, se concentrent sur l'apprentissage de représentations à partir des données, en négligeant largement les connaissances préalables issues de ressources structurées en biomédecine ou de graphes de connaissances spécifiques aux maladies. Les ressources biomédicales structurées, qu'il s'agisse de graphes de connaissances spécifiques à des maladies comme la maladie d'Alzheimer ou l'épilepsie, ou d'ontologies spécifiques à l'EEG, pourraient ancrer les sorties des modèles dans des résultats cliniquement explicables.
Ce projet de doctorat se concentrera sur l'intersection des modèles fondamentaux multimodaux et des neurosciences computationnelles, en exploitant des connaissances explicites et structurées. L'objectif est de développer un cadre novateur pour construire des modèles fondamentaux multimodaux pour les neurosciences, à la fois interprétables, ancrés dans les connaissances et applicables. Objective 1: Study, design, and develop approaches for multimodal learning from heterogeneous neurological data. Current EEG foundation models operate predominantly in a unimodal setting, such as learning representations from EEG signals alone. This objective will investigate approaches for integrating EEG with other data modalities. In particular, this will include approaches for multimodal alignment of shared representations, as well as for learning joint (fused) representations from different data modalities under realistic conditions of missing modalities, asynchronous temporal resolution, and heterogeneous data formats. The objective will also investigate under what conditions domain-agnostic representations transfer effectively across the different inductive biases learned from each data modality.
Objective 2: Develop knowledge-grounded architectures that integrate structured biomedical knowledge into the foundation model pipelines. A central limitation of current attempts is that they focus solely on statistical relationships in the data, without relying on any explicit formalized knowledge. Such knowledge resources already exist, such as the Epilepsy and Seizure Ontology (EpSO), the Alzheimer's Knowledge Base (AlzKB), and EEG-specific ontologies such as NEMO, but remain unused in the traditional design of current model architectures. This objective will explore how such resources can be integrated into the modelling pipeline, investigating knowledge-grounded representation alignment, graph-conditioned representation learning in which the KG structure constrains the learning process, and structured output validation, where model predictions are checked against explicit knowledge constraints.
Objective 3: Develop explainability and reasoning mechanisms. Foundation models in neuroscience currently produce largely opaque predictions. This objective will investigate how knowledge-grounded multimodal architectures (from Objective 2) can be leveraged to produce interpretable outputs. This will include investigating mechanisms for cross-modal explanations, as well as structured knowledge graph reasoning that will allow verification against diagnostic hypotheses and/or clinical decision pathways. As such, it will enable better adoption of these models in practice. The project will adopt an iterative methodology, structured around the three research objectives.
For Objective 1 (multimodal learning), the starting point will be a systematic empirical study of existing EEG foundation models, such as LaBraM [1], STELLAR [2], EEGPT [3], CBraMod [5], as well as general time-series foundation models (MOMENT [16], Mantis [17]). These will be evaluated using standardized evaluation protocols and datasets, allowing us to establish baseline performance. Building on these findings, we will investigate multimodal alignment and fusion strategies. To this end, this will include investigating contrastive and generative paradigms (following NeuroLM [15]). Pretraining data will leverage publicly available large-scale EEG repositories and fMRI datasets to enable cross-modal learning.
For Objective 2 (knowledge grounding), we will first curate and extend existing structured knowledge resources relevant to the target applications. As a starting point, this will include the Epilepsy and Seizure Ontology (EpSO) [11] as well as AlzKB [9] and ADKG [10] for Alzheimer's disease. A key contribution will be investigating approaches for knowledge grounding, such as KG structures injected as relational inductive bias during pretraining or fine-tuning. Finally, we will investigate techniques that allow for post-hoc cross-modal explanation, leveraging both the learned representations and the underlying structured knowledge
Le profil recherché
Diplôme de Master (ou équivalent) en informatique (apprentissage automatique, intelligence artificielle), neurosciences ou dans des domaines connexes
Solide formation en informatique, mathématiques appliquées et statistiques, avec un accent sur l'apprentissage automatique (en particulier l'apprentissage profond)
Compétences avancées en programmation, de préférence en Python
Expérience pratique avec des frameworks d'apprentissage automatique / apprentissage profond (par exemple, PyTorch)
Familiarité avec le traitement et l'analyse de données EEG, ainsi que d'autres données cérébrales multimodales (imagerie, évaluations cliniques, données génomiques, etc.)
Maîtrise avancée de l'anglais : le/la candidat(e) doit être parfaitement à l'aise à l'oral comme à l'écrit