cover image
ENGAGEMENT JEUNES

Data Scientist - Traitement de logs F/H

Hybrid

Châtillon, France

Internship

12-01-2026

Share this job:

Skills

Python DevOps Machine Learning Deep Learning Data Science NLP

Job Specifications


Description de la mission et des activités

Au sein de l'équipe AI4Ops, nous développons des solutions de Machine Learning appliquée à l'observabilité des systèmes IT, avec pour objectif de détecter automatiquement des anomalies à partir des logs systèmes.

Les logs sont souvent non structurés, bruités et massifs, et nécessitent l'usage de techniques avancées de traitement automatique du langage (NLP) combinées à des méthodes de détection d'anomalies à base de méthodes non supervisée en machine learning (ML) ou deep learning (DL) .

Une approche classique consiste d'abord à parser les logs (analyse syntaxique à base d'expressions régulières) pour rattacher chaque log à un template (modèle de message) . On passe ainsi d'une information non structurée (logs bruts souvent très verbeux et variés) en séquences de templates ce qui permet aussi de réduire la dimensionnalité du problème. Ensuite interviennent des opérations de groupage de ces templates (fenêtre fixe, glissante etc) puis de transformation de la représentation (comptage simple, séquence, sémantique) . Dans le cas le plus simple, le problème se ramène à la détection d'anomalies sur des séries temporelles multivariées.

Une autre approache, qui aurait l'avantage d'être plus robuste à la variabilité des données de logs (mot hors vocabulaires, etc) et pourrait se révéler plus performante, serait de calculer des embeddings sur les logs. Différentes approches sont envisageables. Une approche naïve (CountVectorizer ou TF-IDFVectorizer) , en passant par la création d'embeddings avec des embeddings pré-entraînés (Word2Vec, Log2Vec) , ou l'utilisation de framework comme LogBERT.
Le stage portera principalement sur le prétraitement des logs pour les rendre utilisables par les algorithmes ML/DL de détection d'anomalies. Il s'agit d'un cas d'usage concret sur des logs de production. Le stagiaire sera intégré dans une équipe de data scientists et sera en contact avec l'équipe cliente qui a la connaissance métier (signification des logs) . Il aura à sa disposition des outils d'exploration comme ElasticSearch, Kibana, etc.

Objectifs du stage :
Réaliser un benchmark des algorithmes de templating des logs (DRAIN, SPELL, LogMine etc) et identifier le plus pertinent sur les logs du projet
Appliquer des méthodes NLP pour transformer les logs non structurés en représentations exploitables (TF-IDF, embeddings, clustering, etc.)
Travailler en collaboration avec les équipes clientes pour évaluer l'intérêt métier


Profil recherché
Profil recherché externe/compétences

Vous préparez un Bac+5 en Data Science / Intelligence Artificielle et recherchez un stage de 6 mois à temps plein à partir d'avril 2026.
(Pour information, nous ne proposons pas de stage alterné.)

Solide maîtrise de Python et des bibliothèques de traitement des données.
Connaissances en NLP appliqué et/ou en modèles de détection d'anomalies.
Intérêt pour l'observabilité IT, les logs systèmes, les architectures cloud/devops.
Curiosité, autonomie, esprit de recherche, capacité à vulgariser.
__PRESENT
__PRESENT
__PRESENT

About the Company

Engagement Jeunes, le portail de partage des jeunes formés dans les entreprises et les écoles. Alternance, stages, VIE, CIFRE… les entreprises accueillent et développent les jeunes, mais ont rarement la possibilité d'embaucher tous de ceux qu’elles ont formés. Pour maintenir le contact et booster leur insertion, les plus sociales les partagent avec leur écosystème, les PME et ETI basées sur leur bassin d’emploi et d’autres grands groupes. Recommandation des tuteurs, algorithmes de matching sur la base des compétences, aide p... Know more