Fouille de collections de documents en vue d'une caractérisation thématique de connaissances textuelles
Abstract
De nos jours, les entreprises, organismes ou individus se trouvent
submergés par la quantité d'information et de documents disponibles. Les
utilisateurs ne sont plus capables d'analyser ou d'appréhender ces informations
dans leur globalité. Dans ce contexte, il devient indispensable de proposer de
nouvelles méthodes pour extraire et caractériser de manière automatique les
informations contenues dans les bases documentaires. Nous proposons dans
cet article l'approche IC-Doc de caractérisation automatique et thématique du
contenu de collections de documents textuels. IC-Doc est basée sur une
méthode originale d'extraction et de classification de connaissances textuelles
prenant en considération les co-occurrences contextuelles et le partage de
contextes entre les différents termes représentatifs du contenu. IC-Doc permet
ainsi une extraction automatique de KDMs (Knowledge Dynamic Maps) sur les
contenus des bases documentaires. Ces KDMs permettent de guider et d'aider
les utilisateurs dans leurs tâches de consultations documentaires. Ce papier
présente également une expérimentation de notre approche sur des collections
de documents textuels.