Thèse Vers un Moteur Intelligent de Transformation et de Qualité de Données H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Données Algorithmes pour une ville intelligente et durable Direction de la thèse : Zoubida KEDAD Début de la thèse : 2026-04-15 Date limite de candidature : 2026-04-30T23:59:59 L'amélioration de la qualité des données reste un enjeu majeur dans les systèmes d'information modernes. Si les solutions classiques permettent d'exécuter des traitements de transformation, de nettoyage ou de validation, elles restent rigides, peu explicites et souvent incapables de s'adapter à des contextes de données évolutifs.
Dans le cadre de ce projet doctoral, nous nous intéresserons à la conception d'un moteur de transformation de données doté de capacités intelligentes. L'objectif est de concevoir un système capable de prendre des décisions éclairées sur les opérations à appliquer aux données, en fonction de leur état, de leur contexte, ou des erreurs précédemment rencontrées. Nous explorerons des approches permettant au moteur de transformation de sélectionner automatiquement les opérations les plus appropriées selon la nature des données en entrée. Le système visera à détecter des erreurs ou incohérences typiques (valeurs aberrantes, doublons, incompatibilités entre colonnes, etc.) et à appliquer les traitements de correction ou de normalisation adaptés. Une attention particulière sera portée à la cohérence globale des données, à la traçabilité des actions menées, et à la transparence du fonctionnement du moteur afin de garantir l'interprétabilité des décisions prises. Ce travail sera mené en lien avec l'outil Calista, développé par Aubay Solutec, qui offre aujourd'hui des fonctionnalités essentielles de préparation et de manipulation de données. L'objectif de la thèse est d'enrichir cet outil par des capacités d'analyse intelligente, afin de proposer une assistance automatisée et adaptative à la transformation de données. La transformation des données occupe aujourd'hui une place centrale dans les écosystèmes numériques. Elle intervient dans l'ensemble des chaînes de gestion - depuis la préparation initiale jusqu'à l'exploitation analytique - et conditionne la qualité des tableaux de bord, des modèles d'apprentissage automatique ou des processus décisionnels. Elle regroupe un ensemble d'opérations telles que le nettoyage, la normalisation, l'enrichissement ou l'harmonisation de
formats.
Avec la croissance des volumes, la diversité des sources et la généralisation des architectures distribuées, la transformation de données est devenue un enjeu structurant pour les organisations. De nombreux outils industriels intègrent désormais des modules de validation de schémas,
de détection d'anomalies, d'imputation ou de transformation déclarative, tandis que les travaux de recherche proposent des approches fondées sur des règles, des modèles statistiques ou des méthodes probabilistes pour systématiser ces traitements. Ces évolutions s'accompagnent d'un besoin accru de méthodes capables de gérer des données hétérogènes. Les jeux de données combinent fréquemment des attributs numériques, catégoriels ou textuels, chacun présentant des comportements et propriétés sémantiques distincts. Cette diversité impose des cadres méthodologiques capables de prendre en compte les spécificités
associées à chaque type d'attribut et à leurs interactions. Dans les environnements industriels, la transformation constitue également un levier de qualité essentiel. C'est notamment le cas pour Aubay Solutec, qui développe la plateforme open-source Calista, dédiée à la préparation et à la mise en qualité des données. L'amélioration continue des mécanismes de transformation revêt un intérêt stratégique pour renforcer ses capacités
opérationnelles et soutenir l'innovation.
Ces questions rejoignent les travaux menés au sein du laboratoire DAVID, et en particulier de l'équipe DAC (ex. ADAM), spécialisée dans l'intégration de données hétérogènes, l'évaluation de la qualité, l'analyse des dépendances entre attributs et la conception de mécanismes innovants pour améliorer la fiabilité des jeux de données. Ces thématiques offrent un cadre scientifique propice à l'exploration de nouvelles formes d'automatisation et à
l'étude de modèles capables de représenter et analyser les propriétés structurelles et sémantiques des données.
L'objectif global de cette thèse est de concevoir un moteur intelligent de transformation de données, capable de proposer, d'adapter et d'expliquer les traitements appliqués à des jeux de données en fonction de leurs propriétés, de leur contexte et de critères de qualité définis. Ce moteur, destiné à enrichir les capacités actuelles de la plateforme Calista développée par Aubay Solutec, vise à dépasser les approches traditionnelles de nettoyage de données en introduisant des mécanismes dynamiques, intelligents et interprétables pour la transformation et la validation des données.
Dans cette perspective, la recherche visera à automatiser la sélection et l'adaptation des traitements de transformation à partir des caractéristiques observées dans les données, en mobilisant des approches d'apprentissage automatique et de raisonnement probabiliste. Elle s'attachera également à renforcer la cohérence globale des jeux de données transformés, en s'appuyant sur des méthodes d'analyse statistique et de détection d'anomalies, tout en assurant la traçabilité et l'explicabilité des opérations réalisées. Enfin, une attention particulière sera portée à l'intégration industrielle du moteur au sein de la plateforme Calista, afin d'en évaluer la valeur ajoutée et la faisabilité opérationnelle dans un contexte réel.
Le profil recherché
Le (la) candidat(e) est titulaire d'un master 2 en informatique spécialisé dans la gestion de données. De solides aptitudes en programmation sont nécessaires. Il ou elle doit avoir de bonne capacité de rédaction, d'expression oral et de restitution.