Sélectionner les “bons” passages pour créer les “bonnes” questions : Analyse et Évaluation d'un nouveau Corpus de Questions et Réponses pour l'Éducation
Résumé
Les systèmes intelligents pour le support scolaire sont aujourd'hui absents de la plupart des applications, alors que les récentes améliorations du Traitement Automatique des Langues (TAL) permettent d'imaginer des solutions innovantes. La création d'un système de questions-réponses reposant sur des sources scolaires permettrait d'accélérer, d'améliorer et de motiver l'apprentissage de l'étudiant. Dans ce contexte nous nous intéressons à la génération de questions au travers d'approches neuronales. Avec la récente création d'un corpus de questions-réponses par annotation de sources éducatives en langue française, nous disposons des ressources pour évaluer et développer de telles approches. Néanmoins, il faut considérer plusieurs obstacles : la quantité de données qualitatives n'est pas suffisante pour entraîner des approches génératives; dans le cadre d'une application autonome nous ne disposons pas explicitement du support pour la génération. Dans cette étude, nous proposons différentes méthodes d'extraction de ces supports comparant et analysant les résultats sur notre corpus et ceux de la littérature.