Principaux résultats
- 15 000 rapports d’activité suspecte (RAS) traités chaque année
- Extraction précise à 100 %
- Les renseignements essentiels, auparavant confinés à des formats PDF complexes, sont maintenant facilement accessibles
- Processus entièrement automatisé, du téléchargement des fichiers à la base de données structurée
Présentation du client
Notre client est un chef de file américain du secteur des services bancaires en tant que service (BAS), offrant à ses partenaires fintech des produits de dépôt et de crédit à des millions de clients. Avec des actifs en forte croissance atteignant 4,2 milliards de dollars au cours des dernières années, l’entreprise a connu une croissance significative de son activité. Face à l’expansion de son réseau de partenaires et de fournisseurs, la méthode traditionnelle, qui consistait à étendre les équipes tout en augmentant le travail manuel, n’était plus viable. Pour accompagner son expansion, l’entreprise s’est tournée vers Cavallo Technologies pour la mise en œuvre d’une plateforme de données et d’IA centralisée et avancée, basée sur Databricks.
Le Défi
Les rapports d’activités suspectes (RAS) sont des documents essentiels utilisés par les institutions financières pour signaler des activités potentiellement suspectes, telles que la fraude ou le blanchiment d’argent, aux organismes de réglementation comme le Réseau de lutte contre la criminalité financière (FinCEN). Cependant, ces rapports sont souvent stockés en format PDF, ce qui complique leur extraction et leur analyse pour les raisons suivantes :
- Données non structurées : Les RAS peuvent contenir des sections répétitives, ce qui complique leur analyse cohérente.
- Contenu dynamique : La longueur de certaines sections varie selon les rapports.
- Cases à cocher et éléments non textuels : L’extraction d’informations à partir de cases à cocher ou d’images nécessite des outils spécialisés allant au-delà de l’extraction de texte de base.
Avec plus de 100 000 RAS en format PDF, notre client rencontrait d’importantes difficultés pour analyser et interroger ces rapports. Il avait besoin d’une solution efficace lui permettant d’extraire des données précieuses à des fins de conformité.
La Solution
Cavallo Technologies a développé un outil d’analyse RAS personnalisé capable de gérer la nature complexe et non structurée des documents. L’outil utilise une combinaison de techniques, notamment :
- Extraction de champs statiques et dynamiques : Nous avons exploité des coordonnées prédéfinies pour les données à position fixe, tandis qu’une recherche par mots-clés identifiait les sections changeant dynamiquement.
- Extraction d’informations statiques : Nous avons développé des méthodes pour extraire les valeurs des cases à cocher et autres éléments graphiques.
- Traitement rapide : Chaque document SAR est traité en moins de 1,5 seconde, ce qui permet au client d’adapter ses opérations et d’assurer une analyse rapide des données de conformité critiques.

Développement et validation
Le processus a débuté par l’identification et la cartographie des différentes sections de chaque document SAR. Notre approche comprenait :
- Reconnaissance des sections : Nous avons identifié les différentes sections du rapport et les avons associées à des pages spécifiques. Pour les sections répétitives, le système a consolidé les numéros de page afin d’assurer l’exactitude.
- Extraction d’informations statiques : Pour les champs à position fixe (comme les cases à cocher), nous avons défini des points de coordonnées pour une extraction efficace des données.
- Gestion des champs dynamiques : Les sections de longueur variable ont été gérées à l’aide de recherches par mots-clés et de coordonnées décalées, permettant au système d’extraire les informations pertinentes, quel que soit leur emplacement.
- Extraction de la section narrative : La section narrative, qui s’étend sur plusieurs pages, a été gérée par extraction et combinaison de texte de manière transparente.
Afin d’assurer un niveau de précision optimal, nous avons effectué plusieurs cycles de validation à l’aide de données SAR synthétiques et réelles. Nous avons travaillé en étroite collaboration avec l’équipe technique et les intervenants de l’entreprise pour examiner et valider plus de 100 rapports, atteignant une précision d’extraction de 100 %.
Le résultat
Efficacité à grande échelle
- La solution a permis au client de traiter des milliers de documents SAR par programmation, éliminant ainsi toute intervention manuelle.
- La logique d’analyse est optimisée pour la vitesse, traitant chaque document en moins de 1,5 seconde.
Précision de l’extraction des données
- En combinant l’extraction de texte avec le traitement d’images pour les éléments non textuels tels que les cases à cocher, l’outil garantit une saisie de données complète.
- Nous avons validé manuellement les résultats sur plus de 100 documents et avons constaté une précision d’extraction de 100 %.
Conformité et sécurité
- La solution respecte des cadres de sécurité stricts (par exemple, le Databricks AI Security Framework) et n’utilise pas de modèles probabilistes, garantissant ainsi l’absence de risques liés à l’IA.
Le résultat
Notre client dispose maintenant d’un système d’analyse SAR entièrement automatisé qui traite des milliers de rapports avec une précision et une rapidité inégalées. Cette solution a permis d’accéder à des données de conformité critiques, lui permettant de respecter efficacement les exigences réglementaires tout en libérant des ressources précieuses auparavant mobilisées par des processus manuels.
