Apprentissage multimodal basé sur des modèles d'attention pour la classification de documents dans un contexte déséquilibré
Résumé
Les documents administratifs ont la particularité d'être identifiables
par leur contenu textuel (contenu sémantique) ou par leur mise en page (contenu
visuel) et pourtant la classification de ces documents ne se fait généralement
qu'à partir d'une de ces informations. Chacune d'entre elles constitue pourtant
une part essentielle du document qui peut rendre impossible la distinction entre
certaines classes. Les méthodes multimodales de l'état de l'art nécessitent une
large base étiquetée pour l'ensemble des classes alors que dans la vie réelle les
données sont généralement déséquilibrées. Nous proposons ici un modèle adapté
à cette contrainte composé d'un RNN texte et d'un CNN visuel. Leur combinaison
permet d'obtenir une description multimodale. Un modèle d'attention est
également proposé pour chaque modalité afin de classifier plus efficacement une
large variété de documents administratifs. Cette combinaison offre un gain de
performance de 1% sur notre base de données privée et 3% sur la base de données
publique RVL-CDIP.