Combinaison de l'approche inductive (progressive) et linguistique pour l'étiquetage morphosyntaxique des corpus de spécialité
Abstract
Les étiqueteurs morphosyntaxiques sont de plus en plus performants
et cependant, un véritable problème apparaît lorsque nous voulons étiqueter
des corpus de spécialité pour lesquels nous n'avons pas de corpus annotés. La
correction des ambiguïtés difficiles est une étape importante pour obtenir un
corpus de spécialité parfaitement étiqueté. Pour corriger ces ambiguïtés et diminuer
le nombre de fautes, nous utilisons une approche itérative appelée Induction
Progressive. Cette approche est une combinaison d'apprentissage automatique,
de règles rédigées par l'expert et de corrections manuelles qui se
combinent itérativement afin d'obtenir une amélioration de l'étiquetage tout en
restreignant les actions de l'expert à la résolution de problèmes de plus en plus
délicats. L'approche proposée nous a permis d'obtenir un corpus de biologie
moléculaire « correctement » étiqueté. En utilisant ce corpus, nous avons effectué
une étude comparative de quatre étiqueteurs supervisés.