RNTI

MODULAD
Identification de symboles dans des documents déstructurés
In EGC 2019, vol. RNTI-E-35, pp.297-302
Résumé
Nous décrivons une approche originale pour extraire efficacement les symboles graphiques d'un fichier vectoriel (de type PDF par exemple). Après passage d'un espace d'objets graphiques 2D à une chaîne de codes (1D), l'iden- tification des symboles consiste à rechercher une sous-séquence de codes qui se répète dans le fichier d'entrée. Les travaux de la littérature utilisent l'arbre ou le tableau des suffixes, notre algorithme s'appuie sur le principe du tri par pa- quets pour identifier les répétitions. La taille et la fréquence sont spécifiées par l'utilisateur.