Enrichissement de corpus par approche générative et impact sur les modèles de reconnaissance d'entités nommées
Résumé
Les applications industrielles de la reconnaissance d'entités nommées
(REN) sont souvent confrontées à des corpus déséquilibrés. Ceci est en général nuisible à l'efficacité des modèles entraînés, notamment lorsqu'ils sont soumis à de nouvelles données. Dans cet article nous développons deux approches génératives pour enrichir des corpus dans le but d'améliorer la proportion des entités.
Nous comparons l'impact de ces enrichissements sur des modèles de REN, en utilisant différents types de plongements lexicaux non-contextuels et contextuels exploités dans un modèle biLSTM-CRF en charge de l'extraction des entités. L'approche est évaluée sur une tâche de détection de reconduction de marché appliquée à un corpus constitué d'appels d'offres. Les résultats montrent d'une part que l'enrichissement proposé ne dégrade pas les résultats de détection sur le corpus initial et d'autre part améliore de manière significative les taux de détection sur un corpus n'ayant pas participé à l'apprentissage.