Extraction dans des textes anciens d'entités nommées de type binômes de la classification linnéenne du vivant : une étude de cas
Résumé
Les binômes linnéens, ou taxons, sont un type d'entités nommées rarement étudié, et pas du tout dans le cadre de l'enrichissement d'archives anciennes. Nous introduisons l'hypothèse du lecteur compétent qui sait reconnaître un taxon, même obsolète ou mal composé. Cette hypothèse est la base des évaluations présentées. Nous comparons plusieurs approches pour la reconnaissance des taxons : dictionnaires, règles, et une forme d'apprentissage par généralisation. Nous montrons que ressembler à du latin est un critère trop peu précis. Enfin, nous montrons que combiné à un critère de rareté, le critère du latin permet une reconnaissance de bonne qualité : une f-mesure d'environ 70 %.