Les missions du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Albert RILLIARD Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 L'objectif de cette thèse est de mettre à profit ces avancées récentes pour élaborer des méthodes permettant d'intégrer aux systèmes neuronaux des contraintes expertes complexes. Le but est d'utiliser ces contraintes à l'apprentissage et à l'inférence. Le travail de recherche envisagé est à la fois théorique et pratique. Théorique car il nécessite de concevoir comment des fonctions de coût peuvent intégrer des structures variées liées à divers cas d'interaction possibles, et pratique car il nécessite de créer des algorithmes concrets et efficaces d'apprentissage et d'inférence avec des structures de grandes tailles. D'un point de vue macroscopique, ce projet propose une piste concrète pour ce que certains appellent l'IA «neuro-symbolique» [3]. Pour ce faire, nous proposons d'aborder le problème en combinant les travaux de trois domaines de recherche :
· Deep Learning: Nous souhaitons nous concentrer sur les systèmes d'apprentissage reposant sur l'optimisation d'une fonction de coût dont les entrées sont données par un réseau de neurones. L'enjeu est de construire des fonctions de coût qui prennent en compte une structure, c.-à-d. des contraintes expertes.
· Théorie des langages formels: Nous proposons d'utiliser les langages formels pour représenter de manière générique les contraintes expertes. Cela permet de donner un cadre bien défini et généralisable pour exprimer des contraintes de natures diverses.
· Automates pondérés / Séries formelles à variables non-commutatives : La théorie des séries formelles et la notion d'automates pondérés [4] qui en découle permettent d'intégrer de manière générale un système de pondération aux langages formels. Grâce à cela, il est possible de construire des fonctions de pertes différentiables (comme illustré dans [1]).
Les méthodes d'apprentissage statistique qui forment le socle des systèmes d'Intelligence Artificielle (IA) actuels, se basent sur des approches centrées essentiellement sur les données: un système initialisé aléatoirement doit, à partir d'exemples annotés, apprendre la structure - l'organisation sous-jacente - des données afin de faire des prédictions appropriées. Cette approche se prête bien aux domaines où les données sont accessibles en grande quantité et quand les erreurs non contrôlées (les hallucinations) sont sans grandes conséquences.
Cependant, nombre de domaines d'applications disposent de peu de données accessibles et nécessitent en plus des garanties strictes sur les sorties. Par exemple:
· Axe 3 (Robotique, mouvement et interaction avec l'humain): dans le cadre de la robotique, l'interaction opérateur-robot revêt une importance capitale. Cela est d'autant plus vrai dans le cadre des applications défense, pour lesquelles le comportement de telles interfaces doit être pleinement contrôlé (voir le projet Pendragon conduit par l'AMIAD et visant à développer des unités robotiques utilisant l'intelligence artificielle pour agir sur le théâtre des opérations). Le pole recherche de l'AMIAD, notamment dans le cadre de sa collaboration avec l'ENSTA au travers du «LAMIAD», le récent labcom dédié à la robotique, s'intéresse particulièrement à la capacité de commander vocalement ou gestuellement des robots. Dans ce contexte, la collecte de données réelles est extrêmement difficile et aucun comportement non contrôlé de l'interface ne peut être accepté.
· Axe 4 (IA dans la vie de l'humain: santé, éducation, et création) : La dictée de documents scientifiques est un besoin majeur des personnes en situation de handicap pour leurs études. Le développement de cette technologie est aujourd'hui très limitée car il n'existe pas de corpus de données de taille suffisante pour ce problème précis. Dans ce contexte, les hallucinations ont un impact fort pour les personnes à mobilité réduite qui peuvent difficilement corriger les sorties du système.
L'apprentissage structuré est une famille de méthodes d'apprentissage statistique qui intègre des contraintes expertes au domaine d'application. Dans ce cadre, la structure (c.-à-d. l'ensemble des contraintes) du problème est donnée explicitement au système ce qui permet, d'une part, de réduire la quantité de données car le système n'en a plus besoin pour inférer la structure, et d'autre part, de garantir que les prédictions du système resteront dans le cadre défini par les contraintes spécifiées. Ainsi, les méthodes d'apprentissage structuré pallient les problèmes susmentionnés. Cependant, ces méthodes se conjuguent difficilement avec les méthodes d'apprentissage standard, notamment les méthodes neuronales. En effet, l'ajout d'une structure rend la parallélisation des calculs plus difficile et complexifie fortement le calcul du gradient nécessaire pour l'optimisation du système. À cause de ces difficultés, les méthodes d'apprentissage structuré restent confinées a des problèmes de «petite taille», c.-à-d. quand la structure peut s'exprimer sous un graphe de quelques centaines ou milliers de noeuds (voir par exemple [5]). En outre, ces difficultés font que les structures sont principalement utilisées lors de l'inférence mais pas à l'apprentissage [2], ce qui rend le système sous-optimal car les conditions d'apprentissage diffèrent des conditions d'utilisation.

Des travaux récents [1] ont permis de fournir une solution concrète aux problèmes de parallélisation et de calcul de dérivée pour les problème d'apprentissage structuré. Les outils numériques qui en découlent permettent aujourd'hui de paralléliser et de rétro-propager des gradients à travers des structures de «grande taille», c.-à-d. quand la structure peut s'exprimer sous un graphe composé de centaines de millions voir des milliards de noeuds. Cette avancée technique ouvre la possibilité de concevoir des systèmes neuronaux qui utilisent des structures explicites de grande complexité. L'objectif de cette thèse est de mettre à profit ces avancées récentes pour élaborer des méthodes permettant d'intégrer aux systèmes neuronaux des contraintes expertes complexes (Axe 1.3: apprentissage structuré). Le but est d'utiliser ces contraintes à l'apprentissage et à l'inférence. Le travail de recherche envisagé est à la fois théorique et pratique. Théorique car il nécessite de concevoir comment des fonctions de coût peuvent intégrer des structures variées liées à divers cas d'interaction possibles, et pratique car il nécessite de créer des algorithmes concrets et efficaces d'apprentissage et d'inférence avec des structures de grandes tailles. D'un point de vue macroscopique, ce projet propose une piste concrète pour ce que certains appellent l'IA «neuro-symbolique»

· Deep Learning: Nous souhaitons nous concentrer sur les systèmes d'apprentissage reposant sur l'optimisation d'une fonction de coût dont les entrées sont données par un réseau de neurones. L'enjeu est de construire des fonctions de coût qui prennent en compte une structure, c.-à-d. des contraintes expertes.
· Théorie des langages formels: Nous proposons d'utiliser les langages formels pour représenter de manière générique les contraintes expertes. Cela permet de donner un cadre bien défini et généralisable pour exprimer des contraintes de natures diverses.
· Automates pondérés / Séries formelles à variables non-commutatives : La théorie des séries formelles et la notion d'automates pondérés [4] qui en découle permettent d'intégrer de manière générale un système de pondération aux langages formels. Grâce à cela, il est possible de construire des fonctions de pertes différentiables (comme illustré dans [1]).
La méthode proposée peut se résumer ainsi: l'ensemble des prédictions du système respectant des contraintes expertes est exprimée par un langage spécifié par une grammaire formelle. Ce langage, c.-à-d. l'ensemble des prédictions acceptables, est muni d'une pondération calculée par un réseau de neurones. Enfin, une fonction de coût, prenant comme argument le langage pondéré, est optimisée suivant les techniques standard de rétro-propagation des dérivées. L'inférence, quant à elle, consiste à choisir la meilleure hypothèse parmi le langage des prédictions acceptables.
Le travail de thèse consistera à l'application et à l'évaluation de cette méthode à travers trois cas d'apprentissage structuré.
Jeu des échecs (Axe 2.3 Génération contrôlée, Axe 3: interaction avec l'humain)
Il s'agit ici de créer un système qui transcrit la parole en notation échiquéenne et qui, étant donné une position, prédit le coup suivant. Ce scénario permet de simuler un environnement de commande vocale où la structure évolue au cours du temps. Le but est d'étudier l'effet de l'ajout ou non d'une structure sur la quantité de données nécessaire pour atteindre un certain niveau de performance. En termes de données, nous comptons nous appuyer sur les archives en ligne publiquement accessibles du site https://lichess.org/.
Traduire le langage naturel vers langage artificiel (Axe 2.3 Génération contrôlée)
Ce scénario consiste à créé un système qui traduit une intention exprimé en langage naturel, par exemple «quel sont les clients qui se prénomment Jean», dans un langage de programmation: par exemple «SELECT first\_name, last\_name FROM clients WHERE first\_name = Jean';» Le but de ce scénario est de montrer l'applicabilité de notre méthode sur des structures complexes. À la différence du jeu des échecs où l'ensemble de tous les coups possibles est fini (il y a environ 20 000 mouvements de pièce possibles aux échecs), le nombre de phrases lui est infini même si chacune est contrainte par la grammaire du langage de programmation. Nous comptons utiliser le corpus public SQALE pour cela.
Structure Implicite (Axe 1.2 Utilisation optimale des ressource)
Dans les scénarios précédents, la structure est connue intégralement, or, ce n'est pas toujours le cas. Par exemple, la grammaire du langage oral n'est pas formalisée complètement même si on connaît certains éléments - par exemple, toutes les langues orales comportent une structure syllabique. Nous souhaitons étudier si l'ajout d'une structure partielle au système, telle que la structure syllabique, peut aider à réduire la quantité de données nécessaire pour apprendre. Nous comptons utiliser les corpus de parole ouverts à la communauté, tels que LibriSpeech.
Dans tous ces exemples, le but est de comparer les systèmes avec et sans structure pour l'apprentissage et l'inférence. La comparaison se fera sur la base de la précision des prédictions, du ratio quantité de données sur performance, et aussi, le cas échéant avec «mean time to failure», c.-à-d. du temps moyen pour un système à faire des erreurs critiques (par exemple le temps moyen avant de prédire un coup illégal aux échecs).

Le profil recherché

- Connaissances théoriques et pratiques des méthodes d'apprentissage statistique
- Bonnes connaissances des technologie de la parole, notamment la transcription de la parole

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.

Recherches similaires