Apprentissage actif profond pour le classement de textes en plusieurs classes

Yves Mercadier, Jérôme Azé, Sandra Bringay

In EGC 2020, vol. RNTI-E-36, pp.49-60

Résumé

Récemment, le classement de documents textuels a beaucoup progressé. Cependant, les modèles utilisés doivent généralement s'entraîner au préalable avec de nombreux échantillons étiquetés. Il est possible de diminuer ce nombre d'échantillons en choisissant mieux les données à annoter via des techniques d'apprentissage actif. Cela peut permettre de diminuer le coût du processus en réduisant l'intervention humaine. Dans cette étude, nous adapterons les techniques récentes d'apprentissage actif profond utilisées pour le classement d'images, au cas de l'analyse de textes. En particulier, nous serons attentifs à l'apport de l'apprentissage actif profond selon l'architecture utilisée (LSTM ou CNN). Nous validerons nos hypothèses sur des jeux de données de la littérature.

Aperçu Voir bibtex

Télécharger