Classification automatique d'articles encyclopédiques
Résumé
Cet article propose une étude comparative de différentes approches
de classification supervisée appliquées à la classification automatique d'articles
encyclopédiques. Notre corpus d'apprentissage est constitué des 17 volumes de
texte de l'Encyclopédie de Diderot et d'Alembert (1751-1772) représentant un
total d'environ 70 000 articles. Nous avons expérimenté différentes approches
de vectorisation de textes (sac de mots et plongement de mots) combinées à
des méthodes d'apprentissage automatique classiques, d'apprentissage profond
et des architectures BERT. En plus de la comparaison de ces différentes approches,
notre objectif est d'identifier de manière automatique les domaines des
articles non classés de l'Encyclopédie (environ 2 400 articles). Le meilleur modèle
permet d'obtenir 83% de f-mesure moyenne pour l'ensemble des 38 classes.
Par ailleurs, notre étude met en avant la difficulté à distinguer certaines classes
proches sémantiquement. L'ensemble du code développé ainsi que les résultats
obtenus dans le cadre de ce projet sont disponibles en open-source 1.