Thèse Développement et Validation d'Algorithmes de Définition des Cas de Séquelles à Long Terme à Partir du Chaînage Fccss-Snds Application à l'Étude des Effets Iatrogènes des Thérapies Médicament H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Santé publique École doctorale : Santé Publique Laboratoire de recherche : Centre de Recherche en épidémiologie et Santé des populations Direction de la thèse : Rodrigue ALLODJI ORCID 0000000218958415 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-08T23:59:59 Les progrès majeurs réalisés dans le traitement des cancers pédiatriques ont permis d'atteindre des taux de survie à 5 ans supérieurs à 80 %. Cependant, cette amélioration s'accompagne d'une augmentation des séquelles à long terme, incluant notamment les seconds cancers et les pathologies cardiovasculaires, constituant un enjeu majeur de santé publique. Par ailleurs, l'émergence récente de thérapies innovantes (thérapies ciblées, immunothérapies, thérapies cellulaires) soulève de nouvelles questions quant à leurs effets iatrogènes à long terme, encore largement méconnus, en particulier chez les enfants et les adolescents.
Dans ce contexte, cette thèse vise à développer et valider des algorithmes d'identification des séquelles tardives à partir des données du Système National des Données de Santé (SNDS), puis à les appliquer à l'étude des effets des traitements innovants en oncologie pédiatrique.
Le premier axe consistera à construire et valider ces algorithmes en s'appuyant sur la cohorte FCCSS qui inclue 7 670 patients diagnostiqués pour un cancer solide ou un lymphome, disposant de données cliniques validées servant de référence. Des méthodes avancées d'analyse de trajectoires de soins (analyse de séquences, modèles de Markov, apprentissage automatique) seront utilisées pour modéliser les parcours de soins et améliorer l'identification des événements de santé. Les performances des algorithmes seront évaluées à l'aide d'indicateurs de classification.
Le deuxième axe portera sur l'étude des effets iatrogènes des thérapies innovantes dans la cohorte HORUS, qui regroupe des données cliniques détaillées issues de plusieurs centres de lutte contre le cancer, couplées au SNDS. Des analyses de survie (modèles de Cox, modèles à risques concurrents) permettront d'estimer les risques associés à ces expositions, en comparaison aux traitements conventionnels. En complément des méthodes basées sur les scores de propension (IPTW, appariement), une approche d'émulation d'essai cible (target trial emulation) sera considérée.
Enfin, le troisième axe visera à généraliser les résultats à l'échelle nationale en utilisant les données exhaustives du SNDS, afin d'estimer la prévalence du recours thérapies innovantes et des séquelles dans la population française, tout en tenant compte des biais de sélection.
Ce projet s'inscrit à l'interface de l'épidémiologie, de la science des données et de l'oncologie, et contribuera à une meilleure compréhension des effets à long terme des traitements anticancéreux notamment les effets iatrogènes des thérapies innovantes (thérapies ciblées, immunothérapies, thérapies cellulaires), dans une perspective d'amélioration de la prise en charge et du suivi des survivants de cancer de l'enfant, de l'adolescent et du jeune adulte. PROBLEMATIQUE SCIENTIFIQUE GENERALE
Au cours des cinq dernières décennies, des progrès majeurs ont été réalisés dans le traitement des cancers pédiatriques, conduisant à une amélioration spectaculaire du pronostic. Les taux de survie globale à 5 ans dépassent aujourd'hui plus de 80 % chez l'enfant et l'adolescent. En Europe, on estime à plus de 23 millions le nombre de survivants de cancer, dont près de 600 000 sont des survivants de cancers pédiatriques [1]. Cette amélioration de la survie s'accompagne toutefois de nouveaux enjeux de santé publique. La prise en charge à long terme des survivants d'un cancer pédiatrique constitue désormais une priorité, inscrite notamment dans le Plan cancer depuis 2014 et dans la Stratégie décennale de lutte contre les cancers 2021-2030 (Action IV.2.11). En effet, ces patients ont été exposés à des traitements souvent intensifs et multimodaux, à l'origine d'une morbidité tardive importante : environ 68 % des adultes traités pour un cancer durant l'enfance présentent au moins une affection chronique sévère ou invalidante [2], et leur mortalité reste 8 à 11 fois plus élevée que celle de la population générale [3]. Parmi les complications tardives les plus fréquentes et les plus graves figurent les seconds cancers, ainsi que les pathologies cardiovasculaires et cérébrovasculaires [4-6]. Ces résultats reposent en partie sur les travaux de l'équipe Épidémiologie des radiations (EpiRad) de l'unité INSERM UMR1018 (CESP), reconnue internationalement pour ses recherches sur les effets tardifs des traitements anticancéreux, notamment à partir de la cohorte FCCSS (French Childhood Cancer Survivorship Study), enrichie par son chaînage avec les données du Système national des données de santé (SNDS).
Depuis les années 2000, les stratégies thérapeutiques en oncologie ont profondément évolué avec l'émergence de traitements innovants, incluant les thérapies ciblées, les immunothérapies et les thérapies cellulaires (telles que les cellules CAR-T). Initialement réservées aux essais précoces chez des patients en échec thérapeutique, ces approches sont désormais intégrées dans la prise en charge standard, y compris en première ligne, y compris en oncologie pédiatrique. Cependant, leurs effets à long terme restent largement méconnus, en particulier chez l'enfant. Les grandes cohortes historiques ayant permis l'étude des effets tardifs concernent majoritairement des patients traités entre 1950 et 2000, et donc peu ou pas exposés à ces nouvelles modalités thérapeutiques. Il existe donc un besoin crucial de constituer et d'exploiter des cohortes contemporaines permettant d'évaluer les risques iatrogènes associés à ces innovations.
Dans cette perspective, l'équipe EpiRad a initié la cohorte Horus, reposant sur les données de quatre Centres de Lutte Contre le Cancer (Gustave Roussy (GR), Institut Curie (IC), Centre Léon Bérard (CLB), Centre Oscar Lambret (COL)), équipés du dispositif ConSoRe. Ce système permet une collecte semi-automatisée et structurée des données cliniques issues de sources multiples, facilitant la reconstruction de l'histoire oncologique et médicale des patients. Ces données seront enrichies par le chaînage avec le SNDS.
L'exploitation des bases médico-administratives du SNDS offre des perspectives majeures pour le suivi à long terme des survivants de cancer de l'enfant et l'identification des séquelles tardives en population générale. Néanmoins, ces données sont sujettes à des erreurs de classification des événements de santé, susceptible d'introduire des biais importants dans les analyses épidémiologiques [7]. Dans ce contexte, le développement d'algorithmes d'identification des séquelles à partir du SNDS constitue un enjeu méthodologique central, s'inscrivant dans le champ plus large de l'exploitation des données en vie réelle et du phénotypage des données de santé [8-10]. Ces algorithmes doivent s'appuyer sur des trajectoires de soins complexes, reconstruites à partir de séquences d'événements (hospitalisations, prescriptions, actes), et être validés à partir de sources disposant d'un gold standard clinique (dossiers médiaux, questionnaires auto-déclarés puis validés et consultations de suivi à long terme), comme la cohorte FCCSS.
OBJECTIFS SCIENTIFIQUES DE LA THESE
Objectif principal
Ce travail de thèse aura pour objectif principal de développer et valider des algorithmes pour identifier les séquelles tardives des survivants de cancers chez les enfants et les AJA.
Objectifs secondaires
1) Développer et évaluer les performances des algorithmes SNDS pour différentes séquelles (seconds cancers, cardiovasculaires, neurologiques, endocriniennes) en s'appuyant sur des approches de modélisation des trajectoires de soins et d'analyse de séquences.
2) Etudier des effets iatrogènes des thérapies médicamenteuses innovantes (comparaison avec traitements conventionnels) dans la cohorte Horus
3) Généralisation des résultats sur l'ensemble des enfants et des AJA survivants de cancers en France à partir de la base exhaustive du SNDS. TRAVAUX PROJETES - METHODES & MOYENS
Axe 1 : Construction et validation des algorithmes d'identification des séquelles à long-terme dans le SNDS
Matériel et méthodes
Les données de la cohorte FCCSS, chaînées avec celles du SNDS, seront mobilisées. La FCCSS est une cohorte rétrospective incluant 7 670 patients diagnostiqués pour un cancer solide ou un lymphome avant l'âge de 21 ans et avant l'an 2000 dans cinq centres anticancéreux français. Pour chaque individu, des données détaillées ont été recueillies à partir des dossiers médicaux (caractéristiques cliniques, traitements, données démographiques). Le suivi à long terme repose sur plusieurs sources : dossiers médicaux, questionnaires auto-déclarés, consultations cliniques de suivi à long-terme et données SNDS. Avec une durée médiane de suivi d'environ 32 ans, la cohorte FCCSS a permis d'identifier un grand nombre d'événements de santé validés cliniquement, incluant notamment les seconds cancers, les pathologies cardiovasculaires, les troubles auditifs, le diabète, les pathologies cérébrovasculaires et l'insuffisance rénale.
Un sous-échantillon de 5 589 participants disposant de données cliniques validées sera utilisé comme référence (gold standard) pour le développement des algorithmes. L'objectif sera d'estimer, à partir des données SNDS (codes CIM-10, actes CCAM, délivrances médicamenteuses, hospitalisations), la probabilité qu'un événement observé corresponde à un véritable événement clinique.
Analyses statistiques
Les trajectoires de soins individuelles seront reconstruites et analysées à l'aide de méthodes d'analyse de séquences (sequence analysis), de classification de trajectoires (clustering), de modèles de Markov, ainsi que d'approches d'apprentissage automatique [11,12]. Les performances des algorithmes seront évaluées à l'aide de l'aire sous la courbe ROC (AUC), ainsi que des indicateurs classiques de classification (sensibilité, spécificité, valeurs prédictives).
Axe 2 : Etudier des effets iatrogènes des thérapies médicamenteuses innovantes (comparaison avec traitements conventionnels) dans la cohorte Horus
Matériel et méthodes
Dans chaque centre le système ConSoRe, a permis la collecte des données démographiques, cliniques, et thérapeutiques. La cohorte HORUS-ConSoRe comprend actuellement près de 20 000 enfants, adolescents et jeunes adultes : Gustave roussy (n = 7 941), Institut Curie (n = 6 813), Centre Léon Bérard (n ~ 4 000) et Centre Oscar Lambret (n ~ 2 000). Après pseudonymisation, les données sont centralisées par l'équipe EpiRad. Un appariement avec le SNDS sera réalisé sur la base du numéro d'inscription au répertoire (NIR), selon un calendrier avec un premier chaînage pour 2026 et des mises à jour triennal jusqu'en 2034 (autorisation CNIL n° 925155). Ce chaînage permettra un suivi longitudinal des patients, incluant la survenue des décès, des événements secondaires et des complications tardives.
L'exposition aux thérapies médicamenteuses innovantes (thérapies ciblées, immunothérapies, thérapies cellulaires) sera identifiée à partir des données hospitalières (ConSoRe) et des données de soins de ville (SNDS). Une nomenclature des traitements innovants sera construite en combinant les informations issues des bases cliniques et médico-administratives (codes ATC, UCD, CIP, GHS, CCAM), permettant une caractérisation fine des expositions. Les algorithmes développés dans l'axe 1 seront appliqués à cette cohorte afin d'identifier les séquelles tardives (seconds cancers, pathologies cardiovasculaires, neurologiques, endocriniennes).
Analyse des données
L'analyse reposera sur des approches descriptives et analytiques visant à estimer l'association entre l'exposition aux thérapies innovantes et la survenue d'événements iatrogènes à long terme.
Des modèles de survie seront utilisés, incluant : les modèles de Cox à risques proportionnels pour l'estimation des rapports de risques ajustés, ainsi que des modèles de Fine-Gray afin de prendre en compte les risques concurrents (notamment le décès) [13]. En complément des méthodes basées sur les scores de propension (IPTW, appariement), une approche d'émulation d'essai cible (target trial emulation) sera considérée, en définissant explicitement le protocole hypothétique (critères d'inclusion, stratégies thérapeutiques, assignation, temps zéro, suivi et critères de jugement), afin de limiter les biais d'indication, d'immortal time bias et de sélection, et de renforcer l'interprétation causale des estimations [14]. Des analyses d'interaction seront conduites afin d'explorer les effets combinés entre thérapies innovantes et traitements conventionnels (chimiothérapie, radiothérapie, chirurgie).
Enfin, des analyses de sensibilité seront mises en oeuvre pour évaluer la robustesse des résultats face aux hypothèses de modélisation et aux biais résiduels (notamment biais de classification des expositions et des événements).
Axe 3 : Généralisation des résultats à l'échelle nationale chez les enfants et les AJA survivants de cancers en France à partir de la base exhaustive du SNDS
Justification et enjeux
Bien que la cohorte HORUS offre un niveau de détail clinique élevé, elle reste sujette à un biais de sélection, lié au recrutement de patients pris en charge dans des centres experts, souvent porteurs de formes plus complexes ou de caractéristiques biologiques spécifiques. Ce biais est susceptible d'affecter l'estimation de la prévalence des expositions et des risques associés aux thérapies innovantes. Afin d'améliorer la validité externe des résultats, une généralisation à l'échelle nationale sera réalisée à partir des données exhaustives du SNDS.
Matériel et méthodes
La cohorte HORUS-SNDS inclura l'ensemble des enfants, adolescents et jeunes adultes diagnostiqués avec un cancer avant l'âge de 26 ans entre 2006 et 2024 en France (métropole et Corse), identifiés dans le SNDS (protocole en cours de validation par la DSI de l'Inserm pour l'accès à la base exhaustive de données SNDS).
Les critères d'inclusion seront les suivants : un diagnostic de cancer identifié dans le SNDS, un âge au diagnostic strictement inférieur à 26 ans, une affiliation au régime de sécurité sociale français, ainsi qu'une résidence en France métropolitaine ou en Corse. Seront exclus les individus dont l'âge au diagnostic est supérieur ou égal à 26 ans, ceux non affiliés au système de santé français, ainsi que les patients décédés avant le début de la période d'observation, fixé à l'année 2006.
Les expositions aux thérapies médicamenteuses innovantes seront identifiées à partir des différentes sources disponibles dans le SNDS, en mobilisant les codes relatifs aux médicaments (ATC, CIP, UCD), aux actes médicaux (CCAM), aux séjours hospitaliers (GHS) et aux dispositifs médicaux (LPP), selon une nomenclature harmonisée avec celle développée dans l'axe 2. Les séquelles tardives seront ensuite identifiées à l'aide des algorithmes préalablement développés et validés dans le cadre de l'axe 1.
Analyse des données
Les analyses suivront une approche similaire à celle développée dans l'axe 2, avec des adaptations liées à la nature des données médico-administratives.
Les objectifs principaux seront :
- d'estimer la prévalence et l'incidence des expositions aux thérapies innovantes à l'échelle nationale,
- d'évaluer les risques de séquelles tardives associés à ces expositions,
- et de comparer ces estimations à celles issues de la cohorte HORUS afin d'identifier d'éventuels écarts liés au biais de sélection.
Des modèles de survie (Cox, Fine-Gray) seront utilisés, avec ajustement sur les variables disponibles dans le SNDS (âge, sexe, comorbidités).
Enfin, des méthodes de transportabilité et de généralisation des résultats pourront être mobilisées afin de combiner les forces respectives des deux sources de données (richesse clinique vs exhaustivité populationnelle).
Le profil recherché
Le candidat devra être titulaire d'un Master 2 en santé publique, data science, biostatistiques, ou discipline connexe, avec un fort intérêt pour l'analyse des données de santé.
De bonnes compétences en analyse statistique (modèles de survie, inférence causale) et en programmation (R, Python ou SAS) sont requises. Une expérience des grandes bases de données (type SNDS) et des méthodes avancées (analyse de séquences, apprentissage automatique) serait un atout.
Le candidat devra faire preuve de rigueur, d'autonomie, d'esprit critique et de bonnes capacités de communication scientifique, ainsi que d'une aptitude au travail en équipe multidisciplinaire.