IG Data
IGAM
mission menée chez IOD Solutions
Détection NLP non supervisée de sujets récurrents
NLPNon superviséML100 % solo
ARI 0.88
qualité clustering
F1 0.94
sur corpus labellisé
43 000
emails réels traités
Problème
Cartographier les sujets récurrents du flux d’emails entrant d’un cabinet de paie / gestion sociale, sans aucun jeu de labels existant.
Contrainte
Apprentissage non supervisé (aucune vérité terrain), données de paie ultra-sensibles (RGPD), et nécessité de passer à l’échelle.
Approche
- Pipeline conçu seul de bout en bout : ingestion (Microsoft Graph API) → anonymisation RGPD → embeddings → clustering → nommage par LLM → dataviz.
- Embeddings BGE-M3 auto-hébergés, réduction UMAP + clustering HDBSCAN, nommage des clusters par LLM.
- Anonymisation Presidio + spaCy FR + détecteurs à checksum (NIR, IBAN, SIRET, CB).
Résultat
- Qualité du modèle validée sur un corpus synthétique labellisé : ARI 0,88 / F1 0,94.
- Passage à l’échelle sur ~43 000 emails réels, avec hiérarchie de thèmes macro → micro et exécutions reproductibles (caches disque).
Stack
BGE-M3UMAPHDBSCANspaCyPresidioMicrosoft Graph
Projet suivant
Valloire Habitat · Scoring immobilier territorial multi-sources