OD IA
ODERIS
mission menée chez IOD Solutions
Classification IA de slides à l’échelle pour la due diligence
LLMRGPDArchitectureÉchelle
250 000+
slides (≈ 1 500 missions)
RGPD
embeddings calculés en local
cost-aware
arbitre LLM sur les cas ambigus
Problème
Capitaliser les rapports de Vendor Due Diligence en classant automatiquement les slides dans une taxonomie métier, à l’échelle de plus de 250 000 slides (environ 1 500 missions).
Contrainte
RGPD strict : le client refuse tout transfert de données hors UE. Coût des appels LLM à maîtriser sur une volumétrie massive.
Approche
- Pipeline cost-aware en cascade : regex → embeddings → arbitre LLM appelé uniquement sur les cas ambigus.
- Embeddings BGE-M3 exécutés en local et anonymisation systématique (spaCy + GLiNER) avant tout appel au LLM de vision (Mistral Pixtral, UE).
- Architecture hexagonale ; parallélisation par pool borné avec retry/backoff.
Résultat
- Classification automatique des slides dans la taxonomie métier, l’arbitre LLM n’étant sollicité que sur les cas ambigus pour garder le coût sous contrôle.
- Conformité RGPD de bout en bout : embeddings calculés en local et anonymisation avant tout appel au LLM, aucune donnée client ne quitte l’UE.
Stack
Mistral PixtralBGE-M3 (local)PostgreSQLpgvectorArchi hexagonaleSigNoz
Projet suivant
IGAM · Détection NLP non supervisée de sujets récurrents