SDL-Net pour la Localisation de Documents Structurés : un U-Net économe en ressources.
Résumé
L'analyse et la reconnaissance de documents structurés sont essentielles
pour les processus modernes d'onboarding en ligne et la localisation de
documents est une étape cruciale pour obtenir une extraction fiable des informations clés. Bien que l'apprentissage profond soit devenu la technique standard utilisée pour résoudre les problèmes d'analyse de documents, les applications réelles dans l'industrie sont encore confrontées à la disponibilité limitée de données étiquetées et de puissance de calcul informatique lors de l'entraînement de modèles profonds. Pour relever ces défis, nous proposons SDL-Net :
une nouvelle architecture encodeur-décodeur, basée sur U-Net, pour la localisation de documents structurés. Notre approche permet de pré-entraîner l'encodeur de SDL-Net sur un ensemble de données générique contenant des échantillons de diverses classes de documents. Elle permet aussi un ajustement fin rapide, et frugal en termes de données étiquetées nécessaires, de décodeurs gérant la localisation de nouvelles classes de documents. Nous menons des expériences approfondies sur un ensemble de données propriétaire d'images de documents structurés pour démontrer l'efficacité et les capacités de généralisation de l'approche proposée.