RNTI

MODULAD
Apprentissage multimodal basé sur des modèles d'attention pour la classification de documents dans un contexte déséquilibré
In EGC 2021, vol. RNTI-E-37, pp.357-364
Résumé
Les documents administratifs ont la particularité d'être identifiables par leur contenu textuel (contenu sémantique) ou par leur mise en page (contenu visuel) et pourtant la classification de ces documents ne se fait généralement qu'à partir d'une de ces informations. Chacune d'entre elles constitue pourtant une part essentielle du document qui peut rendre impossible la distinction entre certaines classes. Les méthodes multimodales de l'état de l'art nécessitent une large base étiquetée pour l'ensemble des classes alors que dans la vie réelle les données sont généralement déséquilibrées. Nous proposons ici un modèle adapté à cette contrainte composé d'un RNN texte et d'un CNN visuel. Leur combinaison permet d'obtenir une description multimodale. Un modèle d'attention est également proposé pour chaque modalité afin de classifier plus efficacement une large variété de documents administratifs. Cette combinaison offre un gain de performance de 1% sur notre base de données privée et 3% sur la base de données publique RVL-CDIP.