RNTI

MODULAD
Classification de questions en langage naturel par le type sémantique des réponses attendues
In EGC 2021, vol. RNTI-E-37, pp.181-192
Résumé
Les systèmes de question-réponse (QA, Question Answering) sont traditionnellement constitués des trois tâches suivantes : 1) analyse de la question, 2) analyse de l'ensemble documentaire contenant les réponses, 3) recherche et extraction des réponses. Dans cette dernière décennie, les systèmes de QA à base d'apprentissage prennent la forme d'un modèle end-to-end. Par conséquent, les trois étapes ne sont plus explicitement représentées. Il en résulte que les systèmes de QA à base d'apprentissage les plus récents commettent de nombreuses erreurs dès lors que la réponse n'est pas dans le texte ou qu'un raisonnement est nécessaire. En particulier, le type sémantique de la réponse attendue (TSA) peut être incohérent avec le type sémantique de la réponse retournée. Dans cet article, nous nous focalisons sur la tâche d'identification du TSA. Dans un premier temps, nous proposons une taxonomie pour représenter les TSA. Dans un second temps, nous expérimentons des modèles avec CamemBERT développés à partir du corpus de questions-réponses français FQUAD. L'évaluation est réalisée sur le corpus de questions-réponses français PIAF.