Extraction automatique de champs numériques dans des documents manuscrits

Clément Chatelain, Laurent Heutte, Thierry Paquet

In EGC 2006, vol. RNTI-E-6, pp.23-34

Résumé

Nous décrivons dans cet article une chaine de traitement complète et générique permettant d'extraire automatiquement les champs numériques (numéros de téléphone, codes clients, codes postaux) dans des documents manuscrits libres. Notre chaïne de traitement est constituée des trois étapes suivantes: localisation des champs numériques potentiels selon une approche markovienne sans reconnaissance chiffre ni segmentation, reconnaissance des séquences extraites, et vérification des hypothèses de localisation / reconnaissance en vue de limiter la fausse alarme génerée lors de l'étape de localisation. L'évaluation de notre système sur une base de 300 courriers manuscrits montre des performances en rappel-précision intéressantes.

Aperçu Voir bibtex

Télécharger