Annotation sémantique de documents administratifs
Abstract
La numérisation de documents administratifs est un enjeu économique
et écologique prioritaire dans le contexte sociétal actuel. La dématérialisation
massive de document n'est pas sans conséquence et soulève les problèmes d'organisation,
de stockage et d'accès à l'information. Le défi n'est donc plus la numérisation
du document, mais l'extraction des informations qu'ils contiennent.
Les documents sont produits par l'Homme et pour l'Homme. Cette propriété
permet de localiser des informations dans les zones saillantes du document (logos).
La saillance et la reconnaissance sont deux éléments essentiels pour la
classification rapide de documents. A l'opposé, la recherche d'un document ou
d'un ensemble de documents repose presque toujours sur le texte brut, il est
donc nécessaire de faire une correspondance entre une requête textuelle et le
document. Cet article présente une nouvelle approche d'annotation automatique
de documents administratifs qui utilise une approche visuel et une approche de
fouille de texte.