Une infrastructure pour l'annotation linguistique de documents issus du web : le projet ALVIS
Abstract
Cet article présente une architecture logicielle, la plate-forme Ogmios,
permettant l'annotation automatique de documents issus du web. Cette architecture
est fondée sur l'intégration de composants d'analyse linguistique et présente
une double originalité : elle peut être adaptée en fonction du domaine visé et elle
peut analyser de manière robuste des collections de documents hétérogènes, ce
qui est le propre des collections construites à partir du web. Cet article prend
comme exemple une collection de documents du domaine de la biologie. Nous
montrons comment la plateforme Ogmios peut être adaptée à ce domaine et nous
détaillons les performances obtenues suite à cette adaptation. Les résultats de
l'analyse des documents par la plate-forme peuvent ensuite être pris en compte
par des moteurs spécialisés sur internet.