Classification automatique de documents bruités à faible contenu textuel
Résumé
La classification de documents numériques est une tâche complexe
dans un flux numérique de gestion électronique de documents. Cependant, la
quantité des documents issus de la retro-conversion d'OCR (Reconnaissance
Optique de Caractères) constitue une problématique qui ne facilite pas la tâche
de classification. Après l'étude et l'évaluation des descripteurs les mieux adaptés
aux documents issus d'OCR, nous proposons une nouvelle approche de représentation
des données textuelles : l'approche HYBRED (HYBrid REpresentation
of Documents). Elle permet de combiner l'utilisation de différents descripteurs
d'un texte afin d'obtenir une représentation plus pertinente de celui-ci. Les expérimentations
menées sur des données réelles ont montré l'intérêt de notre approche