cover image
Berger-Levrault

STAGE 2026 - IA / NPL - Détection et gestion d'incertitude dans les réponses d'agents IA- F/H

Hybrid

Labège, France

Internship

08-12-2025

Share this job:

Skills

Python FastAPI Data Science Langchain NLP

Job Specifications

Informations générales

STAGE 2026 - IA / NPL - Détection et gestion d'incertitude dans les réponses d'agents IA- F/H

Labège, FRANCE

Label Pro Vélo - Niveau Argent : nous sommes en selle… vous venez ? (site de Labège)

BERGER-LEVRAULT : L’EDITEUR QUI BOULEVERSE L’UNIVERS DES LOGICIELS

Berger-Levrault est un éditeur de logiciel international basé en France qui s’adresse aux collectivités et administrations locales, aux établissements de santé, au monde de l’éducation et à l’industrie. Le Groupe implanté en Europe, au Maroc et au Canada compte 40 000 clients sur les 5 continents.

Berger-Levrault est le leader des solutions logicielles de Ressources Humaines et de Gestion Financière pour les secteurs public et parapublic en France et en Espagne, ainsi que le leader européen des solutions de gestion de maintenance.

Acteur de proximité solide et pérenne, Berger-Levrault collabore avec ses clients et partenaires pour rendre le monde plus simple et plus sûr grâce à un numérique sécurisé et accessible à tous.

Engagés dans une transformation numérique responsable, les 2 200 collaborateurs de Berger-Levrault agissent au quotidien pour être à la hauteur des enjeux sociétaux, économiques et environnementaux de leurs clients par la création de solutions digitales de confiance.

https://www.berger-levrault.com/

VOS PRINCIPALES RESPONSABILITES

Sujet : Détection et gestion d’incertitude dans les réponses d’agents IA

Contexte :

Au sein de la Direction de la Recherche et de l’Innovation Technologique (DRIT), le Lab IA explore les nouveaux paradigmes d’intelligence artificielle, et en particulier l’intégration des modèles de langage de grande taille (LLM) dans des systèmes multi-agents intelligents.

L’un des défis majeurs de ces systèmes concerne la fiabilité et la transparence des réponses générées : les modèles peuvent produire des affirmations incorrectes tout en affichant une confiance élevée. Cette « illusion de certitude » nuit à la confiance des utilisateurs et à la robustesse globale du système.

Le stage s’inscrit dans une démarche de R&D exploratoire, visant à concevoir et expérimenter des mécanismes d’auto-évaluation et de calibration de confiance pour des agents conversationnels intégrant des LLM. Ce travail contribuera à l’amélioration de la fiabilité, de la traçabilité et de l’ergonomie cognitive de l’assistant IA développé dans le cadre du projet Athena de Berger-Levrault.

Missions :

Étudier les approches existantes de détection d’incertitude et de calibration de confiance dans les modèles de langage : estimation probabiliste, self-consistency, chain-of-thought scoring, contradiction detection, LLM uncertainty estimation.
Concevoir un module d’évaluation de fiabilité, capable d’estimer la fiabilité d’une réponse générée à partir d’indicateurs sémantiques : évaluation de similarité de la réponse principale avec des réponses candidates, cohérence inter-agent, vérification de sources externes (API sur sites web de référence ou corpus métier de référence, etc.).
Mettre en place un système de scoring sémantique pour évaluer la cohérence interne des réponses et identifier les contradictions ou divergences logiques.
Prototyper un mécanisme de retour d’incertitude dans l’interface agentique : visualisation de la confiance (barres, couleurs, reformulations automatiques), feedback utilisateur.
Évaluer scientifiquement le dispositif, via un protocole expérimental mesurant précision, robustesse, calibrage et perception utilisateur.

Selon l’avancement de la mission d’autres pistes comme la suggestion de correction seraient envisageable.

Approches et technologies envisagées :

LLM : Modèles de Mistral AI
Frameworks : LangChain
Méthodes : self-consistency, contradiction-check, semantic similarity scoring (SBERT, Cosine distance), combinaison de métriques
Stack possible : Python, FastAPI, Streamlit pour les tests, VectorDB (Weaviate).

Livrables attendus :

Une étude comparative des méthodes d’estimation de confiance pour les LLM.
Un prototype fonctionnel d’agent capable de produire un score de confiance accompagné d’une visualisation explicite.
Un protocole d’évaluation et un rapport scientifique présentant les résultats.
Des recommandations pour l’intégration de ce module

CETTE OFFRE EST FAITE POUR VOUS ?

Vous êtes étudiant(e) en Master 2, école d’ingénieurs ou formation universitaire en intelligence artificielle, data science, NLP ou informatique. Et vous recherchez un stage de 6 mois débutant au printemps 2026.
Vous présentez un intérêt marqué pour la recherche appliquée et les modèles de langage (LLM).
Vous maîtrisez Python ainsi que la manipulation de modèles de langage et d’embeddings.
Vous faites preuve de curiosité scientifique, de rigueur méthodologique et d’un réel goût pour l’expérimentation.

VOTRE FUTURE DREAM TEAM

Intégré(e) à la Direction de la Recherche et de l’Innovation Technologique (DRIT) de Berger Levrault, vous rejoindrez une équipe innovante qui valorise la curiosité, la collabora

About the Company

Berger-Levrault is an international software publisher headquartered in France, providing solutions and services to local authorities and administration, healthcare facilities, industries and educational institutions. The Group has offices in Europe, Morocco and Canada, and serves 40,000 customers across 5 continents. Berger-Levrault is the leading specialist in Human Resources and Financial Management software solutions for public and semi-public sectors in France and Spain, and is also the European leader in maintenance m... Know more