Les missions du poste

Établissement : Institut Polytechnique de Paris Télécom Paris École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information Direction de la thèse : Vadim MALVONE ORCID 0000000161384229 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-07-31T23:59:59 Les systèmes multi-agents doivent lever conjointement les ambiguïtés - potentiellement conflictuelles - entre objectifs et critères. Trouver des stratégies (approximativement) optimales pour les systèmes multi-agents nécessite la résolution de problèmes multi-objectifs, souvent formulés sous forme d'objectifs pondérés. Cependant, les objectifs pondérés ne permettent pas d'imposer une hiérarchie stricte, ce qui peut conduire à des résultats indésirables, voire dangereux. Les relations de préférence entre objectifs et critères, en revanche, autorisent des hiérarchies strictes, préservant des propriétés importantes du comportement des agents qui ne devraient pas être négociées accidentellement lors de l'optimisation. Toutefois, l'introduction de relations de préférence entre plusieurs objectifs accroît la complexité computationnelle des problèmes d'optimisation en raison de la structure d'objectifs imbriqués qu'elles induisent.

La thèse proposée s'articulera autour de trois axes afin de progresser sur les problématiques soulevées par les problèmes multi-objectifs. Premièrement, les problèmes multi-agents se prêtent naturellement à une analyse en théorie des jeux, où les participants cherchent à atteindre des équilibres représentant des politiques optimales en équilibrant leurs préférences et celles des autres. Deuxièmement, en raison de la difficulté d'introduire l'incertitude de l'environnement dans le cadre classique de la théorie des jeux, la thèse étudiera les effets des relations de préférence dans les processus de décision markoviens et examinera les aspects de modélisation et de calcul du point de vue de l'ordonnancement de formules de logique temporelle. Enfin, le troisième axe portera sur l'application des relations de préférence au façonnage des récompenses en apprentissage par renforcement, avec l'hypothèse raisonnée que les préférences améliorent les performances par rapport à des structures de récompense simples.
Many problems require balancing multiple, potentially conflicting criteria, yet their natural formulation as multi-objective problems has not been extensively studied in many settings. Collapsing multiple objectives into single-objective weighted sums is often sufficient, but when there is a strict rank over objectives, weighted sums do not generally provide guarantees that solutions sufficiently comply with system requirements. Strict hierarchies of ranked objectives (seen as preferences over objectives) commonly arise in applications with requirements that must always prevail during trade-offs, such as prioritizing safety over other metrics in autonomous vehicle control.

Preference relations can guide trajectories and decisions that better reflect intended agent behavior, supporting safety, efficiency, and effectiveness requirements. Incorporating probabilistic models such as Markov decision processes helps study performance under uncertainty, and logic-based techniques can be used to verify correct behavior of agents in changing environments. Preference relations may also be exploited in reinforcement learning to shape reward signals in ways that improve efficiency and accuracy of learning.

A key barrier is tractability. Introducing preferences increases computational complexity, and the multi-agent nature of many robotics problems further amplifies this. The thesis therefore also emphasizes approximate solutions, motivated by the need for real-time decision-making under resource constraints. The objective is to study preference relations in reinforcement learning and control to equip multi-agent systems with strategic decision-making. Preferences are used to design reward or cost functions that encode relations between multiple objectives, explicitly addressing multi-objective problems for which current methods either lack guarantees or are computationally intractable. The aim is to optimize or learn policies that better reflect expected behavior and improve trade-off management during planning, especially in interactive multi-agent settings.

Open questions motivating the work include: how preferences can guide learning and decision-making in reinforcement learning and control for multi-agent systems, particularly for sociotechnical requirements that are subjective; what incorporating different preference structures entails in game-theoretic control, logic-constrained control, and reinforcement learning for complex systems; how policies can be improved in practice (for example, producing better robotic behaviors) by incorporating preference relations into models; and what impact preferences have on tractability, including which approximate methods can provide near-optimal decisions in real time. The work studies preference relations in several complementary contexts and uses formal tools to incorporate preference structures in multi-agent systems, in both certain and uncertain environments. It combines: game-theoretic modeling to study equilibria under ordered preferences; Markov decision process formulations to account for uncertainty and to study preferences expressed over temporal-logic sentences; and reinforcement learning methods that use preference relations for reward shaping. In addition to direct (exact) solution approaches, the thesis explicitly targets approximate methods to improve tractability and enable use in robotics scenarios with real-time constraints.

Le profil recherché

Solide formation en informatique, en robotique, en automatique ou en mathématiques appliquées ; familiarité avec l'optimisation et l'apprentissage par renforcement ; intérêt pour les systèmes multi-agents, la théorie des jeux et les méthodes formelles (y compris les processus de décision markoviens et la logique temporelle). De solides compétences en programmation ainsi que la capacité à travailler à la fois sur des aspects théoriques et sur l'implémentation sont attendues.

Postuler sur le site du recruteur

Ces offres pourraient aussi vous correspondre.