Les missions du poste

Établissement : Université Paris-Saclay GS Sciences de l'ingénierie et des systèmes École doctorale : Interfaces : matériaux, systèmes, usages Laboratoire de recherche : Mathématiques et Informatique pour la Complexité et les Systèmes - EA 4037 Direction de la thèse : Paolo BALLARINI ORCID 0000000246523953 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-22T23:59:59 **Résumé du projet**

La fouille stochastique de processus (\emph{stochastic process discovery}, SPD) concerne l'extraction, à partir d'un journal d'événements, d'un modèle probabiliste reproduisant fidèlement le caractère stochastique du processus observé. En pratique, la SPD se ramène à un problème d'optimisation visant à identifier les paramètres du modèle de sorte que le langage stochastique (SL) qu'il émet ressemble à celui du journal. Sur le plan computationnel, la SPD est pénalisée par deux aspects corrélés : le coût d'évaluation du SL et la dimension de l'espace des paramètres. Pour les réseaux de flots de travail stochastiques (SWN), le calcul exact du SL garantit la meilleure conformance mais peine à passer à l'échelle, tandis que l'approximation par simulation offre un compromis entre conformance et temps de calcul. Le formalisme récemment introduit des arbres de processus stochastiques (SPT) et son extension temporisée (TSPT) permet une réduction substantielle de l'espace des paramètres.

Sur cette base, le projet explore deux axes complémentaires.

**Axe 1 - Extension de la SPD à la dimension temporelle.** Cette dimension a reçu peu d'attention et plusieurs questions restent ouvertes. Un premier objectif est d'étendre le calcul exact du SL au formalisme TSPT, ce qui suppose de définir formellement la sémantique en termes de chaîne de Markov à temps continu (CTMC) d'un TSPT. Un deuxième objectif est de concevoir un cadre d'optimisation automatisé pour l'estimation des paramètres d'un TSPT, exploitant le calcul exact du SL. Un troisième objectif, plus conceptuel, est de caractériser une conformance stochastique enrichie, étendant les mesures fondées sur l'EMD au cadre temporisé, et d'étudier son lien avec le critère du maximum de vraisemblance pour les modèles CTMC. Un quatrième objectif est une évaluation comparative approfondie face à l'approche GDT\_SPN de Rogge-Solti et al., selon l'expressivité, l'identifiabilité des paramètres et le coût computationnel. Enfin, un objectif exploratoire est d'étendre le formalisme TSPT au-delà du cadre markovien, en étudiant des formalismes à temps de séjour non exponentiels, avec une comparaison avec l'approche semi-markovienne de Kalenkova et al.

**Axe 2 - Approches fondées sur l'apprentissage automatique.** En alternative aux approches classiques, cet axe explore l'application des méthodes d'apprentissage automatique à la SPD, en abordant deux problèmes distincts. Le premier concerne l'apprentissage des paramètres à structure fixée : étant donné un journal et un modèle de flot de contrôle (obtenu via l'\emph{inductive miner}), il s'agit d'identifier des paramètres minimisant un objectif de conformance entre les SL du modèle et du journal. Une voie prometteuse est d'exploiter des modèles profonds pour séquences (LSTM, Transformeurs) comme substituts différentiables du SL, permettant une optimisation par gradient tout en conservant comme sortie le modèle structuré interprétable. L'EMD n'étant pas différentiable dans sa forme brute, identifier quelle mesure de conformance différentiable est la mieux adaptée à l'apprentissage par gradient, et quel rapport les optima obtenus entretiennent avec ceux de l'EMD exacte, constitue une question centrale. Le second problème, plus ambitieux, concerne l'apprentissage de la structure elle-même : découvrir le modèle de flot de contrôle directement à partir du journal, sans squelette préalable. Étendre au cadre stochastique les approches supervisées récentes fondées sur des réseaux de neurones sur graphes, où la structure découverte doit admettre une sémantique probabiliste ou temporisée significative, demeure une direction largement ouverte.

Ces axes situent le projet à l'interface des méthodes formelles, de la modélisation stochastique et de l'apprentissage automatique. Contexte scientifique La fouille de processus (process mining) est aujourd'hui une discipline mature dans sa dimension structurelle, mais sa dimension stochastique, visant à extraire des modèles probabilistes capables de reproduire non seulement le flot de contrôle mais aussi la distribution des traces observées, reste un domaine en plein essor. Les approches existantes, fondées essentiellement sur les réseaux de flots de travail stochastiques (SWN), se heurtent à deux difficultés majeures : le coût computationnel de l'évaluation du langage stochastique émis par le modèle et la dimensionnalité élevée de l'espace de ses paramètres. Le formalisme récent des arbres de processus stochastiques (SPT) et son extension temporisée (TSPT) offrent un cadre plus compact et mieux adapté au passage à l'échelle, tandis que les avancées récentes en apprentissage profond suggèrent de nouvelles voies pour l'optimisation des paramètres et la découverte de la structure. Ce projet de thèse s'inscrit dans cette dynamique, à la croisée des méthodes formelles, de la modélisation stochastique et de l'apprentissage automatique. (i) Définir formellement la sémantique CTMC des TSPT et étendre le paradigme du calcul exact du langage stochastique à ce formalisme ; (ii) concevoir un cadre d'optimisation automatisé pour l'estimation des paramètres d'un TSPT ; (iii) caractériser une notion de conformance stochastique enrichie par la dimension temporelle ; (iv) mener une comparaison approfondie avec les approches GDT\_SPN et semi-markoviennes ; (v) explorer l'usage de réseaux de neurones profonds comme substituts différentiables pour l'optimisation des paramètres ; (vi) étudier la faisabilité d'approches d'apprentissage automatique pour la découverte de la structure du flot de contrôle dans le cadre stochastique. La recherche combinera trois approches méthodologiques. Sur le plan théorique, elle reposera sur la définition formelle de la sémantique CTMC des arbres de processus stochastiques temporisés (TSPT) et sur la caractérisation de notions de conformance enrichies par la dimension temporelle. Sur le plan algorithmique, elle développera des cadres d'optimisation exacts fondés sur le dépliage des modèles, ainsi que des cadres fondés sur l'apprentissage profond exploitant des substituts différentiables du langage stochastique (LSTM, Transformeurs). Sur le plan expérimental, la validation reposera sur des journaux d'événements réels et une comparaison systématique avec les approches existantes (GDT\_SPN, modèles semi-markoviens).

Le profil recherché

Nous recherchons un·e candidat·e motivé·e pour prendre part à ce projet de thèse. Le·la candidat·e doit être titulaire d'un Master en informatique, mathématiques appliquées ou statistiques, et posséder de solides compétences en programmation. Le projet se situe à l'interface de plusieurs domaines de recherche, incluant les méthodes formelles, la modélisation stochastique, la fouille de processus et l'apprentissage automatique. Un intérêt marqué pour au moins l'une de ces disciplines est attendu, et une familiarité préalable avec la modélisation probabiliste (chaînes de Markov, réseaux de Petri stochastiques), l'optimisation ou l'apprentissage profond (modèles de séquences tels que les LSTM ou les Transformeurs) constituerait un atout précieux.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires