Les missions du poste
Information importante
Type de contrat:
Freelance
Taux journalier :
300
Cette offre est à 0% de commission
Localisation :
Paris, France
Date de démarrage :
2 à 4 semaines
Mode de travail :
Hybride
Publié le :
10 juin 2026
Le besoin
Missions
Stratégie et cadrage de la recette (20 %)
- Définir la stratégie de recette et les plans de test associés à chaque cas d'usage RAG Agentique (cadrage fonctionnel et technique, critères d'acceptation, métriques d'évaluation).
- Formaliser les jeux de tests, les golden sets et les protocoles d'évaluation propres à un système RAG : pertinence, fidélité (faithfulness), groundedness, hallucinations, robustesse aux prompts adverses, latence, coût.
- Contribuer à la gouvernance qualité des 50+ cas d'usage : matrice de couverture, suivi de non-régression, rituels de validation, comités de mise en production.
Implémentation et exécution des recettes (80 %)
- Scripting et automatisation des campagnes de test (Python principalement) : exécution massive, parallélisation, collecte de logs et de métriques.
- Construction et maintenance des datasets de recette : extraction et préparation de corpus, parsing de documents hétérogènes (PDF, HTML, Office, scans OCR), chunking adapté aux uses cases.
- Génération d'embeddings de test et validation des index vectoriels (recall@k, MRR, qualité de la similarité, taille de chunks, stratégies de fenêtrage).
- Tests des workflows agentiques : validation des chaînes d'agents, des outils invoqués (function calling), du routage des intentions, de la gestion d'erreurs et des fallbacks.
- Mise en place d'évaluations LLM-as-a-judge (rubrics, scoring automatique, calibration par échantillonnage humain).
- Tests de non-régression sur prompts, modèles (changements de version) et sources documentaires (mises à jour de la base).
- Tests de robustesse et de sécurité : jailbreak, prompt injection, leakage de données sensibles, biais, conformité aux exigences réglementaires bancaires.
- Reporting des défauts et collaboration directe avec les équipes Data/ML/Dev pour le débogage et la correction.
- Contribution à l'outillage de recette : développement de helpers internes, intégration aux pipelines CI/CD, dashboards de qualité (Streamlit, Grafana, etc.).
Communication et accompagnement
- Restituer les résultats de recette de manière synthétique aux Product Owners, équipes IT et métiers.
- Documenter les bonnes pratiques de recette IA générative et contribuer au socle méthodologique de l'équipe Assets IA.
- Participer aux communautés QA / GenAI 4 Dev du Groupe et y partager les retours d'expérience.
Compétences techniques attendues
- Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance).
- Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest).
- Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking.
- Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires.
- Frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes.
- Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison).
- Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock - gestion du rate limiting, retry, instrumentation.
- Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette.
- Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production.
- Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie.
Soft skills
- Rigueur et esprit d'analyse poussés - la qualité d'un système RAG se joue dans le détail.
- Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels.
- Excellentes capacités rédactionnelles (rapports de recette, documentation technique) et de présentation orale.
- Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques.
- Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers).
- Capacité d'initiative, force de proposition sur l'amélioration des process de recette.
- Anglais courant impératif pour ce poste (documentation technique, échanges internationaux).
Profil recherché
- Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance)
- Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest)
- Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking
- Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires
- Connaissance des frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes
- Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison)
- Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock - gestion du rate limiting, retry, instrumentation
- Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette
- Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production
- Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie
- Rigueur et esprit d'analyse poussés
- Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels
- Excellentes capacités rédactionnelles et de présentation orale
- Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques
- Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers)
- Capacité d'initiative, force de proposition sur l'amélioration des process de recette
- Anglais courant impératif pour ce poste (documentation technique, échanges internationaux)
Compétences requises
- Python
- Reporting
- Esprit d'analyse
- Force de proposition