Extraction automatique de champs numériques dans des documents manuscrits
Résumé
Nous décrivons dans cet article une chaine de traitement complète et
générique permettant d'extraire automatiquement les champs numériques (numéros
de téléphone, codes clients, codes postaux) dans des documents manuscrits
libres. Notre chaïne de traitement est constituée des trois étapes suivantes:
localisation des champs numériques potentiels selon une approche markovienne
sans reconnaissance chiffre ni segmentation, reconnaissance des séquences extraites,
et vérification des hypothèses de localisation / reconnaissance en vue de
limiter la fausse alarme génerée lors de l'étape de localisation. L'évaluation de
notre système sur une base de 300 courriers manuscrits montre des performances
en rappel-précision intéressantes.