Identification de symboles dans des documents déstructurés
Résumé
Nous décrivons une approche originale pour extraire efficacement les
symboles graphiques d'un fichier vectoriel (de type PDF par exemple). Après
passage d'un espace d'objets graphiques 2D à une chaîne de codes (1D), l'iden-
tification des symboles consiste à rechercher une sous-séquence de codes qui se
répète dans le fichier d'entrée. Les travaux de la littérature utilisent l'arbre ou
le tableau des suffixes, notre algorithme s'appuie sur le principe du tri par pa-
quets pour identifier les répétitions. La taille et la fréquence sont spécifiées par
l'utilisateur.