Les missions du poste
Information importante
Type de contrat: Freelance
Taux journalier : 550
Localisation : Paris, France
Date de démarrage :
2 à 4 semaines
Mode de travail : Hybride
Publié le : 30 juin 2026
Le besoin
Division IA & Data
1. Objectif du poste
Participer au support d'une application de gateway d'accès LLM. Traiter les tickets N1/N2, remonter les erreurs récurrentes et écrire les procédures pour permettre au reste de l'équipe d'être efficace en cas d'absence.
Participer à la rédaction des processus d'escalade et les post mortem pour l'équipe.
2. Contexte
- Équipe : 5 ingénieurs infra déjà répartis sur 2 produits IA/LLM
- Portefeuille : 3 produits majeurs - plateforme d'inférence LLM, pipeline de datascience, service de mise à disposition de modèles IA.
- Environnement technique : Kubernetes (cluster(s) onprem & cloud hybride), Helm, Argo CD, CI/CD (GitLab / Jenkins), observabilité (Prometheus / Grafana, Loki), secrets management (Vault), gestion des GPU (NVIDIA GRID).
- Méthodologie : Agile (Scrum/Kanban) - tableau JIRA, suivi ITSM (ServiceNow).
3. Missions principales
Domaine Responsabilités
Gestion du RUN
- Supervision des alertes, incidents et changements ;
- Coordination du triage (L1 L2 L3) avec l'équipe offshore ;
- Rédaction & maintenance des runbooks, playbooks et SOP ;
- Suivi du MTTR, escalades et reporting aux parties prenantes.
Incident Management & RCA
- Conduite d'enquêtes postmortem (RCA) ;
- Mise en place d'actions correctives et préventives ;
- Gestion du carnet d'incidents dans ServiceNow (SNOW).
Optimisation des plateformes
- Monitoring des métriques (latence, utilisation GPU, capacité des noeuds) ;
- Propositions d'optimisation (autoscaling, rightsizing, tuning des ressources) ;
- Gestion des patchs de sécurité et suivi des CVE.
Automation & CI/CD
- Automatisation des tâches récurrentes (scripts Python, Terraform, Ansible) ;
Collaboration & gouvernance
- Interface avec les Product Owners, les équipes DataScience et les fournisseurs d'infrastructure ;
- Participation aux cérémonies Scrum/Kanban (standup, grooming, retro) ;
- Veille à la conformité ITSM (processes, KPI, SLA).
Support aux utilisateurs
- Gestion des demandes d'accès, des droits RBAC et de la documentation technique ;
- Formation ponctuelle (onboarding) des nouveaux membres de l'équipe offshore.
4. Profil recherché
Domaine Exigences
Expérience
- 5 + ans d'expérience en exploitation (Run/Production) d'environnements Kubernetes à grande échelle ;
Compétences techniques
- Kubernetes, Helm, Argo CD ;
- Scripting/developpement Python (débogage, packaging : venv, poetry, uv) ;
- CI/CD (GitLab, Jenkins), IaC (Terraform, Ansible) ;
- Observabilité (Prometheus, Grafana, Loki) ;
- Developpement Go est un plus
Méthodologies ITSM & Agile
- Gestion de tickets JIRA, expérience Scrum/Kanban.
Compétences soft
- Esprit d'analyse et résolution d'incidents ;
- Rédaction technique (runbooks, rapports d'incident) ;
- Sens du service client interne, diplomatie et capacité à gérer les priorités conflictuelles.
Langues Français courant, anglais professionnel (écrit et oral).
Formation Bac +5 en informatique, génie logiciel, systèmes d'information ou équivalent.
6. Conditions & modalités
Localisation Poste basé en France
Equipement Laptop (choix MacOS/Windows) + accès VPN sécurisé.
Horaires Flexibles, avec créneaux de standup communs (ex. 09h00-10h00 CET).
7. Pourquoi nous rejoindre
- Impact : Vous assurez la disponibilité des services IA / Data qui alimentent les métiers du groupe.
- Environnement technologique : Travail sur les dernières technologies cloudnative (K8s, GPU, LLMOps).
Culture : Autonomie, collaboration internationale et forte volonté d'innovation.
Compétences requises
- Service client
- Python
- Modèles de grilles
- Anglais
- Reporting
- Jira
- Intelligence artificielle
- Kanban
- Autonomie
- Automation
- Kubernetes
- Création d'une base documentaire
- Terraform
- Jenkins
- Git
- Ansible
- Grafana
- Gestion des patchs
- Français
- Scrum
- KPI
- Esprit d'analyse
- Rédaction de notices techniques
- Prometheus
- Scripting