Traitement automatique de documents

(factures, contrats, CVs, documents officiels...)

Contexte : la saisie manuelle

La saisie manuelle demeure une pratique répandue dans divers domaines tels que la comptabilité (factures, bons de commande, bordereaux…), l’administratif (inscriptions, dossiers, justificatifs…), la finance (rapports et publications), le juridique (contrats, statuts…), et les ressources humaines (CVs…).

Il n’est pas rare de voir environ un équivalent temps plein (ETP) alloué pour le traitement des factures pour chaque tranche de 100 employés.

Problème :

Le traitement des documents et la saisie manuelle sont des tâches fastidieuses, prônes à l’erreur et pour lesquelles il est de plus en plus difficile d’embaucher.

Elles représentent un coût non négligeable pour les entreprises, quelque soit le secteur d’activité.

Les solutions génériques aux problèmes de traitement de documents rencontrent divers défis majeurs :

  • Problème de confidentialité (SaaS) :

    Les solutions basées sur le modèle SaaS (Software as a Service) peuvent soulever des inquiétudes quant à la confidentialité des données, car les documents sensibles sont traités en dehors des infrastructures internes de l’entreprise.

  • Limitation à quelques types de documents :

    Les solutions génériques peuvent être spécialisées dans un nombre restreint de types de documents (généralement, les factures), ce qui peut limiter leur applicabilité à des entreprises ayant des besoins plus diversifiés.

  • Absence de consensus sur ce qu’est “une bonne extraction” :

    L’absence d’une définition universelle de ce qu’est une « bonne extraction » peut entraîner des résultats variables et sujet à interprétation. Par exemple, la représentation numérique 1,000 signifiera « un » en France et « mille » aux États-Unis. La diversité des formats et des conventions pose un défi significatif pour les solutions génériques, qui doivent être suffisamment flexibles pour s’adapter à ces nuances tout en assurant une cohérence dans les résultats.

Solution : OCR et LLM (Intelligence Artificielle)

Notre approche :

Grâce à l’OCR (Optical Character Recognition) et aux Large Language Models (en particulier à ceux qui prennent en compte la mise en page), nous avons mis au point un outil qui lit des fichiers PDF et remplit les colonnes d’un tableur (excel ou google sheet) automatiquement.

Ce dont on a besoin pour travailler :

L’adaptation de l’algorithme à un type de document particulier se fait au moyen d’un jeu de données labelisé.

A partir de quelques centaines d’exemples de documents et du résultat attendu (tableur excel rempli avec les bonnes valeurs par exemple), nous construisons un jeu de données « corrigé » et l’utilisons pour spécialiser un algorithme sur cette nouvelle tâche.

L’étape de correction est une méthode développée par Scopeo permettant de réduire considérablement la quantité de données nécessaire.

OCR

Traitement automatique de documents

PREDICT

Traitement automatique de documents

Document original

Initialement, l’image est obtenue en scannant le document. Elle contient du texte mais également d’autres types d’impression comme les lignes de tableaux, les logos, les tampons, les signatures etc.

Analyse OCR

Nous appliquons les technologies de l’état de l’art en OCR pour lire le texte et identifier sa position sur le document

 Prédiction LLM

Nous utilisons un large language model spécialisé et tenant compte de la mise en page pour trouver la bonne réponse parmi les résultats de l’OCR. 

Résultats

300 factures 

Sans correction

Précision moyenne 68%

7000 factures 
SANS CORRECTION

Précision moyenne 70%

300 factures 

Avec correction

Précision moyenne 90%

Cette différence souligne l’efficacité de cette méthode, qui permet de développer des applications de traitement automatique de documents avec un jeu de données très raisonnable et en un temps très court.

Vous nous quittez ?

Restez au courant des actualités et des articles de blog
en vous abonnant à notre newsletter !