Habitat & territoires
conseil

Extraction de données
Habitat & territoires  conseil par Agence Web Kernix

Client

Habitat & territoires conseil (HTC)

Expertises

  • Deep learning
  • Traitement d'images

Technos

Python
AWS
PIL
Panda
NumPy

Année

2024
Habitat & territoires conseil (HTC), filiale de l’Union sociale pour l’habitat, a fait appel à Kernix pour automatiser l’exploitation de milliers de formulaires papier et en tirer une donnée structurée et exploitable.

Contexte

Dans le cadre de ses missions, HTC a collecté plusieurs milliers d’états des lieux remplis manuellement sur des formulaires papier. Ces documents, riches en informations, restaient cependant difficilement exploitables en l’état. La saisie et la structuration des données représentaient un travail long, répétitif et source d’erreurs.

Pour relever ce défi, HTC a sollicité le DataLab de Kernix pour concevoir une solution d’intelligence artificielle dédiée à automatiser l’extraction d’informations clés afin de produire des fichiers standardisés, utilisables pour le suivi, l’analyse et la prise de décision.

Réalisation

La mission consistait à extraire automatiquement des informations précises à partir de milliers de formulaires papier, incluant des cases cochées remplies manuellement. Pour y parvenir, plusieurs étapes ont été nécessaires :

  • Création d’un algorithme spécifique pour la détection des cases cochées basé sur l’analyse de la densité des pixels.
  • Développement de techniques pour gérer les problèmes fréquents dans les formulaires manuscrits :
    • croix qui dépassent des cases et empiètent sur les cases voisines ;
    • marquages multiples dans une même catégorie (filtrage par intensité relative) ;
    • ratures et corrections des utilisateurs.
  • Mise en place d’un traitement séquentiel des documents pour identifier le type de formulaire et normaliser l’extraction des données.
  • Structuration et export des données extraites en format CSV pour intégration dans le système d’information client.

Résultats

Le processus, auparavant entièrement manuel et chronophage, a été complètement automatisé.

Cette automatisation a permis de réduire considérablement le temps de traitement des formulaires, passant de plusieurs minutes par document à seulement quelques secondes.

Prochaine réalisation

Labomega

Plateforme collaborative pour la recherche universitaire