De nouvelles pondérations adaptées à la classification de petits volumes de données textuelles
Résumé
Un des défis actuels dans le domaine de la classification supervisée de
documents est de pouvoir produire un modèle fiable à partir d'un faible volume
de données. Avec un volume conséquent de données, les classifieurs fournissent
des résultats satisfaisants mais les performances sont dégradées lorsque celui-ci
diminue. Nous proposons, dans cet article, de nouvelles méthodes de pondérations
résistant à une diminution du volume de données. Leur efficacité, évaluée
en utilisant des algorithmes de classification supervisés existants (Naive Bayes
et Class-Feature-Centroid) sur deux corpus différents, est supérieure à celle des
autres algorithmes lorsque le nombre de descripteurs diminue. Nous avons étudié
en parallèle les paramètres influençant les différentes approches telles que le
nombre de classes, de documents ou de descripteurs.