Multi-catégorisation de textes juridiques et retour de pertinence
Résumé
La fouille de données textuelles constitue un champ majeur du
traitement automatique des données. Une large variété de conférences, comme
TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille
de textes juridiques, dans l'objectif est le classement automatique de ces textes.
Nous utilisons des outils d'analyses linguistiques (extraction de terminologie)
dans le but de repérer les concepts présents dans le corpus. Ces concepts
permettent de construire un espace de représentation de faible dimensionnalité,
ce qui nous permet d'utiliser des algorithmes d'apprentissage basés sur des
mesures de similarité entre individus, comme les graphes de voisinage. Nous
comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont
utilisés sans réduction de la dimensionnalité.