Multi-catégorisation de textes juridiques et retour de pertinence

Vincent Pisetta, Hakim Hacid, Djamel Abdelkader Zighed

In EGC 2006, vol. RNTI-E-6, pp.235-246

Abstract

La fouille de données textuelles constitue un champ majeur du traitement automatique des données. Une large variété de conférences, comme TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille de textes juridiques, dans l'objectif est le classement automatique de ces textes. Nous utilisons des outils d'analyses linguistiques (extraction de terminologie) dans le but de repérer les concepts présents dans le corpus. Ces concepts permettent de construire un espace de représentation de faible dimensionnalité, ce qui nous permet d'utiliser des algorithmes d'apprentissage basés sur des mesures de similarité entre individus, comme les graphes de voisinage. Nous comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont utilisés sans réduction de la dimensionnalité.

Preview See bibtex

Download