RNTI

MODULAD
Classification automatique d'articles encyclopédiques
In EGC 2022, vol. RNTI-E-38, pp.63-74
Résumé
Cet article propose une étude comparative de différentes approches de classification supervisée appliquées à la classification automatique d'articles encyclopédiques. Notre corpus d'apprentissage est constitué des 17 volumes de texte de l'Encyclopédie de Diderot et d'Alembert (1751-1772) représentant un total d'environ 70 000 articles. Nous avons expérimenté différentes approches de vectorisation de textes (sac de mots et plongement de mots) combinées à des méthodes d'apprentissage automatique classiques, d'apprentissage profond et des architectures BERT. En plus de la comparaison de ces différentes approches, notre objectif est d'identifier de manière automatique les domaines des articles non classés de l'Encyclopédie (environ 2 400 articles). Le meilleur modèle permet d'obtenir 83% de f-mesure moyenne pour l'ensemble des 38 classes. Par ailleurs, notre étude met en avant la difficulté à distinguer certaines classes proches sémantiquement. L'ensemble du code développé ainsi que les résultats obtenus dans le cadre de ce projet sont disponibles en open-source 1.