Classification de questions en langage naturel par le type sémantique des réponses attendues
Résumé
Les systèmes de question-réponse (QA, Question Answering) sont traditionnellement
constitués des trois tâches suivantes : 1) analyse de la question,
2) analyse de l'ensemble documentaire contenant les réponses, 3) recherche et
extraction des réponses. Dans cette dernière décennie, les systèmes de QA à base
d'apprentissage prennent la forme d'un modèle end-to-end. Par conséquent, les
trois étapes ne sont plus explicitement représentées. Il en résulte que les systèmes
de QA à base d'apprentissage les plus récents commettent de nombreuses
erreurs dès lors que la réponse n'est pas dans le texte ou qu'un raisonnement
est nécessaire. En particulier, le type sémantique de la réponse attendue (TSA)
peut être incohérent avec le type sémantique de la réponse retournée. Dans cet
article, nous nous focalisons sur la tâche d'identification du TSA. Dans un premier
temps, nous proposons une taxonomie pour représenter les TSA. Dans un
second temps, nous expérimentons des modèles avec CamemBERT développés
à partir du corpus de questions-réponses français FQUAD. L'évaluation est réalisée
sur le corpus de questions-réponses français PIAF.