Extraction et identification d'entités complexes à partir de textes biomédicaux
Résumé
Nous présentons ici un système d'extraction et d'identification d'entités
nommées complexes à l'intention des corpus de spécialité biomédicale. Nous
avons développé une méthode qui repose sur une approche mixte à base d'ensemble
de règles a priori et de dictionnaires contrôlés. Cet article expose les
techniques que nous avons mises en place pour éviter ou minimiser les problèmes
de synonymie, de variabilité des termes et pour limiter la présence de
noms ambigus. Nous décrivons l'intégration de ces méthodes au sein du processus
de reconnaissance des entités nommées. L'intérêt de cet outil réside dans la
complexité et l'hétérogénéité des entités extraites. Cette méthode ne se limite
pas à la détection des noms des gènes ou des protéines, mais s'adapte à d'autres
descripteurs biomédicaux. Nous avons expérimenté cette approche en mesurant
les performances obtenues sur le corpus de référence GENIA.