Conception itérative et semi-supervisée d'assistants conversationnels par regroupement interactif des questions
Résumé
La création d'un jeu de données pour l'entrainement d'un chatbot repose
sur un a priori de connaissance du domaine. En conséquence, cette étape
est le plus souvent manuelle, fastidieuse et soumise aux biais. Pour garantir l'efficacité
et l'objectivité de l'annotation, nous proposons une méthodologie d'apprentissage
actif par annotation de contraintes. Il s'agit d'une approche itérative,
reposant sur un algorithme de clustering pour segmenter les données et tirant
parti de la connaissance de l'annotateur pour guider le regroupement des questions
en une structure d'intentions. Dans cet article, nous étudions les paramètres
optimaux de modélisation pour réaliser une segmentation exploitable en un minimum
d'annotations, et montrons que cette approche permet d'aboutir à une
structure cohérente pour l'entrainement d'un assistant conversationnel.