Les missions du poste
L'AP-HP est un centre hospitalier universitaire CHU, qui s'organise en 6 GHU et 38 hôpitaux, traitant 8 millions de patients annuellement dans divers domaines médicaux. La Direction des Services Numériques (DSN) de l'AP-HP fournit des services numériques sécurisés aux professionnels et patients.
Dans le cadre du Plan National Maladies Rares, le ministère de la santé (DGOS) a chargé l'AP-HP de la maîtrise d'oeuvre du projet Banque Nationale de Données Maladies Rares (BNDMR). Ses objectifs sont :
· De faire avancer les connaissances sur les maladies rares en France
· De favoriser l'identification des patients susceptibles d'être inclus dans des essais cliniques ;
· De permettre une meilleure coordination entre les structures maladies rares.
La cellule opérationnelle est composée d'un directeur opérationnel, une directrice médicale, d'une directrice adjointe ainsi que de 40 professionnels spécialisés en systèmes d'information, conduite de projet et en exploitation de données/santé publique. La cellule opérationnelle a également recours, ponctuellement, à des prestations externes, des stagiaires et des apprentis.
Au sein de cette cellule opérationnelle, l'équipe Data de la BNDMR est en charge de la gouvernance, de l'exploitation et de la valorisation de l'entrepôt de données Maladies Rares à des fins de recherche, de pilotage et d'innovation.MISSION GENERALE
Dans le contexte d'une évolution de l'EDS BNDMR, par 1) l'intégration des nouveaux sets de données, 2) et de l'appariement de la base aux données nationales (SNDS) et 3) d'une forte augmentation des demandes d'exploitation des données, les missions de l'alternant Data Engineer sont :
· Accompagner le Data Engineer de la BNDMR dans la conception, le développement et l'opération des chaînes de traitement de données, de l'ingestion à l'exposition, en garantissant la scalabilité, la performance, la traçabilité et la qualité des flux de données.
· Participer à la structuration et à l'optimisation des modèles de données et DataMarts afin de fournir des jeux de données fiables, exploitables et reproductibles pour les besoins analytiques, scientifiques et opérationnels.
MISSIONS PONCTUELLES OU SPECIFIQUES
· Concevoir, développer et maintenir des pipelines de données de l'EDS à des fins de pilotage, d'analyse et de recherche.
· Industrialiser et automatiser des traitements ponctuels ou manuels critiques de l'équipe Data (contrôles qualité, livraison de jeux de données, etc.).
· Mettre en oeuvre des mécanismes de traçabilité et de versionnement des flux et des transformations de données.
· Collaborer avec les Data Scientists pour adapter les structures de données aux besoins analytiques et faciliter la mise en production des travaux de recherche.
· Participer à la documentation technique des architectures, pipelines, modèles de données et bonnes pratiques de développement.
· Contribuer au respect des exigences réglementaires dans les architectures et traitements de données.
Le profil recherché
SAVOIR FAIRE REQUIS
. Maîtrise d'au moins un langage de programmation orienté data engineering (Python indispensable)
. Connaissance des bases de données relationnelles, en particulier PostgreSQL
. Notions dans la conception et le développement de pipelines ETL/ELT
. Connaissance des architectures de données et intérêt pour la gestion des flux de données complexes
. Pratique du travail collaboratif et du versionnement de code (Git / GitLab)
. Notions de tests appliqués aux données
. Bon niveau d'anglais technique écrit
CONNAISSANCES ASSOCIEES
. Compréhension des principes d'architecture data (chaînes de traitement, séparation ETL)
. Sensibilité aux enjeux de qualité, gouvernance et traçabilité des données
. Connaissance ou intérêt pour les exigences réglementaires liées aux données de santé (RGPD, doctrines CNIL, sécurité)
QUALITES REQUISES
. Capacité à travailler en équipe pluridisciplinaire (Développeurs, Data Scientists, Data Managers, Experts médicaux)
. Rigueur, sens de la qualité et souci de la robustesse des solutions mises en place
. Autonomie croissante dans l'organisation du travail, avec une bonne gestion des priorités
. Capacité à documenter et à rendre compréhensibles des sujets techniques
. Sens des responsabilités et respect strict de la confidentialité des données
PRE-REQUIS
. Formation en cours en Master ou école d'ingénieur en informatique, data engineering, data science ou équivalent
. Adhésion aux valeurs du service public et intérêt prononcé pour le domaine de la santé
Compétences requises
- Python