Thèse Apprentissage Multimodale pour la Détection et le Suivi des Déchets Marins en Surface et en Milieu Sous-Marin Côtier H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Université Paris-Saclay GS Sciences de l'ingénierie et des systèmes École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : IBISC - Informatique, BioInformatique, Systèmes Complexes Direction de la thèse : Khalifa DJEMAL ORCID 0000000249598205 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-29T23:59:59 Les déchets marins représentent une menace croissante pour les écosystèmes côtiers, qu'ils soient flottants à la surface de la mer ou présents dans des environnements sous-marins côtiers, en raison de l'augmentation de la production de plastiques, de déchets industriels, d'engins de pêche abandonnés et d'autres matériaux d'origine anthropique. La surveillance de cette pollution est particulièrement difficile, car les déchets marins peuvent se trouver à la fois à la surface de l'océan et dans des environnements sous-marins peu à moyennement profonds, qui constituent deux domaines visuels et physiques fortement distincts. Détecter, classifier et suivre les déchets marins dans ces différents environnements nécessite de surmonter des conditions d'éclairage hétérogènes, la turbidité, les distorsions optiques et acoustiques, le bruit des capteurs ainsi que de fortes variations dans la complexité des arrière-plans.
Ce projet vise à concevoir des approches robustes fondées sur des modèles d'apprentissage multimodaux, capables de reconnaître de manière cohérente les déchets marins aussi bien dans les images de surface que dans les séquences sous-marines côtières. La détection en surface exploitera la rétrodiffusion SAR de Sentinel-1 ainsi que les images optiques de Sentinel-2, permettant une observation à grande échelle dans des conditions météorologiques et de couverture nuageuse variées. En revanche, la détection sous-marine s'appuiera sur des jeux de données publics collectés par ROV et AUV dans des conditions de faible luminosité et d'environnements encombrés. Le projet abordera ainsi le défi méthodologique lié à la combinaison de sources de données hétérogènes, afin d'améliorer la robustesse de la détection, la généralisation entre domaines et le suivi spatio-temporel des déchets marins dans les environnements côtiers.
Marine debris, especially plastic debris and microplastics, is a major environmental challenge for coastal and archipelagic regions. This issue is particularly relevant to Indonesia, an island country exposed to strong anthropogenic pressure, intense maritime activities, major riverine inputs and complex ocean transport processes. Previous studies have shown that marine debris in Indonesia is abundant, spatially scattered and still insufficiently documented at national scale, despite national commitments to reduce plastic pollution (Purba et al., 2019; Isfarin et al., 2024). Recent studies also report the occurrence of microplastics across Indonesian aquatic environments, from inland and riverine systems to coastal and archipelagic waters (Cordova et al., 2024; Isfarin et al., 2024).
Monitoring marine debris is challenging because the objects to be detected vary strongly in shape, size, colour, composition and immersion state. Debris may float at the sea surface, be partially submerged, stranded on shorelines or located in shallow underwater environments. At the surface, detection is affected by turbidity, sun glint, algae, foam, ships, suspended sediments and floating organic matter. Underwater, low light, turbidity, water depth, seabed complexity and sensor variability make automatic recognition even more difficult. As a result, traditional monitoring methods based on field surveys, manual sorting and visual inspection remain costly, slow and difficult to scale up over a large archipelago.
Recent progress in remote sensing, computer vision and machine learning opens new perspectives for automated marine-debris detection. At global scale, Lebreton et al. (2018) showed the rapid accumulation of plastic in the Great Pacific Garbage Patch, illustrating the persistence and concentration dynamics of ocean plastics. For satellite-based detection, several datasets and methods have been proposed using Sentinel-2 imagery. The MARIDA dataset provides a benchmark for machine learning applied to marine-debris detection from Sentinel-2 multispectral data (Kikaki et al., 2022). Sannigrahi et al. (2022) demonstrated the value of Random Forest and SVM models for detecting marine floating plastics, while Rußwurm et al. (2023) proposed a deep segmentation approach producing pixel-level probabilities of marine-debris presence in coastal areas.
For Indonesia, recent studies confirm the relevance of remote sensing and AI for plastic-waste monitoring. Sakti et al. (2023) used Sentinel-2 imagery, an adjusted plastic index and Random Forest to identify illegally dumped plastic waste in the Rancamanyar River, a tributary of the Citarum River. More recently, Faradinah Nasir and Kurniawan (2025) applied Random Forest, XGBoost and LightGBM to marine-debris detection at Kuta Beach, Bali, using Sentinel-2 images and the MARIDA dataset. These studies provide a direct scientific basis for adapting detection models to Indonesian coastal and river-to-sea environments.
Underwater detection is a second scientific challenge. Ðuraš et al. (2024) released the Seaclear Marine Debris Dataset, composed of 8,610 annotated ROV images collected in shallow waters and covering 40 object categories. Baseline tests with Faster R-CNN and YOLOv6 showed that performance drops when models are transferred to new sites, cameras or visual conditions. This domain-shift issue is highly relevant to Indonesia, where turbidity, light, biodiversity and seabed characteristics may vary across Java, Bali, Sulawesi, the Moluccas and Western Papua. UAV and ROV platforms are also promising complementary tools, as shown by Escobar-Sánchez et al. (2022), who analysed their use for monitoring floating and underwater marine litter in shallow coastal waters.
The proposed PhD project aims to design a multimodal AI framework for detecting, classifying and monitoring marine debris in Indonesian coastal environments. The approach will combine Sentinel-2 optical imagery, Sentinel-1 SAR data, UAV images for local validation, and underwater images or videos acquired by ROV/AUV platforms or collected from public datasets. Optical imagery will exploit the spectral signatures of floating and stranded debris, while SAR data will provide complementary information under cloudy conditions, which are frequent in tropical climates. Previous work on SAR feature fusion (Horch et al., 2019) and image enhancement under difficult visual conditions (Trongtirakul et al., 2024) will inspire preprocessing and fusion strategies.
The PhD will develop deep-learning detection and segmentation models with a strong focus on cross-site generalisation. Models will be trained on existing datasets and adapted to representative Indonesian sites, such as touristic coastal areas in Bali, highly anthropised river mouths in Java, and archipelagic areas with biodiversity concerns. Domain adaptation, semi-supervised learning, frugal annotation strategies, uncertainty quantification and model explainability will be central methodological components. The expected outcome is not only an accurate detector, but a robust, interpretable and operational processing chain for spatio-temporal mapping of marine debris.
L'objectif général de la thèse est de développer une chaîne méthodologique robuste de détection des déchets marins dans les environnements côtiers indonésiens, en combinant télédétection satellitaire, vision par ordinateur et imagerie sous-marine. Le projet s'inscrit dans le contexte d'une pollution plastique fortement liée aux activités humaines, aux apports fluviaux et à la complexité du territoire indonésien, qui est caractérisé par une très grande diversité de côtes, d'îles, de baies, de ports, de zones touristiques, de mangroves et de récifs.
Le contexte scientifique est marqué par trois limites principales : la rareté de jeux de données annotés réellement représentatifs des milieux tropicaux indonésiens ; la difficulté de généraliser les modèles de détection d'un site à l'autre ; et la nécessité de combiner plusieurs sources d'information, depuis les images satellites jusqu'aux images UAV et ROV. Le projet vise donc à dépasser une simple application de modèles existants pour construire une approche adaptée aux conditions visuelles, climatiques et géographiques de l'Indonésie.
Les objectifs spécifiques sont les suivants :
- constituer un corpus multi-source associant images Sentinel-1, Sentinel-2, données UAV, images sous-marines et jeux de données publics annotés ;
- développer des modèles de détection et de segmentation des déchets marins, en surface et en milieu sous-marin peu à moyennement profond ;
- évaluer la robustesse des modèles face aux variations de site, de capteur, de turbidité, de luminosité et de complexité des arrière-plans ;
- proposer des stratégies d'adaptation de domaine, d'apprentissage semi-supervisé et d'annotation frugale pour réduire la dépendance aux données annotées locales ;
- produire des cartes de présence probable des déchets et des indicateurs d'incertitude exploitables pour la surveillance environnementale et l'aide à la décision.
La méthodologie sera organisée en cinq étapes complémentaires.
1. Construction et harmonisation des données
La première étape consistera à sélectionner des zones d'étude indonésiennes représentatives, par exemple une zone touristique fortement exposée comme Bali ou Kuta, une embouchure ou un bassin versant anthropisé à Java, et une zone côtière ou archipélagique à fort enjeu écologique. Les données Sentinel-2 permettront d'extraire les signatures spectrales de déchets flottants ou échoués, tandis que Sentinel-1 fournira des informations radar complémentaires, notamment en période de forte nébulosité. Les images UAV et les données publiques sous-marines, dont Seaclear et éventuellement d'autres bases annotées, seront utilisées pour entraîner, valider ou tester les modèles.
2. Prétraitement, amélioration et fusion des images
Les images seront corrigées, normalisées et harmonisées selon leur nature : correction atmosphérique et extraction d'indices spectraux pour Sentinel-2, traitement de la rétrodiffusion et extraction de textures pour Sentinel-1, stabilisation et amélioration du contraste pour les images UAV ou sous-marines. Des méthodes inspirées de la fusion de caractéristiques SAR (Horch et al., 2019) et de l'amélioration d'images en conditions difficiles (Trongtirakul et al., 2024) seront étudiées pour améliorer la visibilité des objets peu contrastés, partiellement immergés ou noyés dans des arrière-plans complexes.
3. Détection et segmentation par apprentissage profond
La thèse évaluera plusieurs familles de modèles : classifieurs classiques sur indices spectraux, modèles de détection d'objets de type YOLO ou Faster R-CNN, architectures de segmentation de type U-Net, Mask R-CNN ou transformers, et modèles multimodaux capables de combiner plusieurs sources d'information. Les performances seront évaluées à l'aide d'indicateurs adaptés : précision, rappel, F1-score, IoU, mAP, robustesse inter-sites et taux de fausses alertes.
4. Adaptation de domaine, annotation frugale et incertitude
Un enjeu majeur sera la généralisation des modèles à de nouveaux sites indonésiens. La thèse explorera des stratégies de transfert d'apprentissage, d'adaptation de domaine, d'apprentissage semi-supervisé et d'active learning afin de réduire le coût d'annotation. L'incertitude des prédictions sera quantifiée pour produire non seulement des cartes de détection, mais aussi des cartes de confiance utiles pour guider les campagnes de terrain.
5. Cartographie et aide à la décision
Les résultats des modèles seront intégrés dans une chaîne de traitement permettant de générer des cartes spatio-temporelles de présence probable des déchets marins. Ces cartes pourront être croisées avec des données environnementales, telles que la proximité des embouchures, les courants, les vents, l'occupation des sols et les pressions anthropiques. A terme, elles pourront aider à prioriser les observations de terrain, les opérations de nettoyage et les actions de réduction des déchets à la source.
Le profil recherché
Master's degree or equivalent in computer science, artificial intelligence, data science, remote sensing, environmental engineering, geosciences, ocean engineering, or a closely related STEM field.
The candidate should have a solid background in machine learning and deep learning, together with practical programming skills in Python. Experience with common libraries or frameworks such as PyTorch, TensorFlow, scikit-learn, OpenCV, or equivalent tools would be appreciated.
Knowledge of computer vision methods for image classification, object detection, semantic segmentation or instance segmentation will be an asset. Familiarity with architectures such as CNNs, U-Net, YOLO, Faster R-CNN, Mask R-CNN, transformers or related models is desirable, but not all of these methods are expected to be mastered at the beginning of the PhD.
An interest in satellite image processing and Earth-observation data is expected, especially for optical and SAR data such as Sentinel-1 and Sentinel-2. Previous experience with remote sensing platforms, geospatial data processing, UAV images, ROV/AUV videos or annotated image datasets would be considered an advantage.
The candidate should be motivated by interdisciplinary research at the interface between artificial intelligence, remote sensing and environmental monitoring. A strong interest in marine pollution, coastal ecosystems, marine debris detection and the Indonesian archipelagic context is expected.
Good written and oral communication skills in English are required. The candidate should be able to work in an interdisciplinary and international environment, with autonomy, scientific curiosity and willingness to interact with researchers from different fields.