Thèse Approximation à Mémoire Finie de Processus à Dépendance Longue Vers un Apprentissage Scalable H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Institut Polytechnique de Paris École nationale de la statistique et de l'administration économique École doctorale : Mathématiques Hadamard Laboratoire de recherche : CREST - Centre de recherche en économie et statistique Direction de la thèse : Azadeh KHALEGHI ORCID 0000000186435416 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-15T23:59:59 Ce projet s'intéresse à l'analyse et à l'apprentissage à partir de données séquentielles présentant des dépendances complexes, potentiellement de longue portée. Un cadre général pour modéliser ce type de données est celui des processus ergodiques stationnaires, qui permet d'éviter des hypothèses structurelles fortes (indépendance, markovianité, conditions de mélange). Toutefois, cette grande généralité s'accompagne de limitations importantes : les garanties statistiques obtenues sont souvent faibles, sans vitesses de convergence, et les méthodes existantes peuvent être coûteuses sur le plan computationnel.
L'objectif de ce projet est de développer un cadre théorique et algorithmique permettant d'approximer des processus à dépendance complexe par des modèles à mémoire finie. L'idée centrale est de déterminer dans quelle mesure des processus présentant une dépendance de longue portée peuvent être représentés de manière approchée par des modèles plus simples, tels que des processus markoviens d'ordre fini, tout en contrôlant l'erreur induite par cette approximation.
Plus précisément, le projet abordera les questions suivantes : (i) établir des garanties théoriques pour l'approximation de processus ergodiques par des modèles à mémoire finie, en fonction du niveau de troncature ; (ii) concevoir des méthodes adaptatives permettant de sélectionner automatiquement la longueur de mémoire pertinente à partir des données, en équilibrant biais d'approximation et variance statistique ; (iii) étudier les conséquences de ces approximations sur des problèmes d'inférence tels que la classification, la détection de ruptures ou la prédiction ; et (iv) analyser les liens entre estimation de la dépendance et réduction de modèle.
En fournissant des représentations approchées mais tractables de processus complexes, ce projet vise à combler l'écart entre des approches non paramétriques très générales et des modèles plus structurés, permettant ainsi de développer des méthodes d'apprentissage plus efficaces, avec de meilleures garanties théoriques, pour l'analyse de séries temporelles dépendantes. The analysis of sequential data with complex dependencies is a central problem in statistics and machine learning. In many application domains, such as time series analysis, signal processing, and dynamical systems, observations exhibit temporal dependence that cannot be adequately captured by classical assumptions such as independence or short-range dependence. Stationary ergodic processes provide a general framework for modeling such data, allowing for rich dependence structures without imposing restrictive assumptions.
However, this level of generality comes at a cost. In the absence of additional structure, statistical guarantees are often weak, and in some cases rates of convergence do not exist. Moreover, methods operating at this level of generality can be computationally demanding, as they require handling complex dependence across the entire history of the process. In contrast, more structured models, such as finite-order Markov processes, enable efficient algorithms and stronger theoretical guarantees, but rely on assumptions that may not hold in practice.
This tension between generality and tractability motivates the study of intermediate representations that balance expressiveness and simplicity. In particular, understanding when complex dependent processes can be approximated by finite-memory models is a key question at the intersection of ergodic theory, nonparametric statistics, and sequential learning. Addressing this question is essential for developing scalable and theoretically grounded methods for learning from dependent data.
Le profil recherché
Le ou la candidat(e) idéal(e) possède de solides bases en mathématiques et en statistique, et est particulièrement à l'aise avec la théorie de la mesure et l'analyse fonctionnelle. Une formation préalable en théorie de l'information et en apprentissage automatique est fortement souhaitable. Des compétences complémentaires pourront être acquises au cours du doctorat.