Traduction d'un jeu de données de dialogues en français et Détection d'émotion à partir de texte
Résumé
Les chatbots permettent à un programme informatique d'interagir plus
naturellement avec un interlocuteur. Ils demeurent toutefois limités, n'étant pas
sensibles à l'état d'esprit ou aux émotions de l'utilisateur, ce qui leur permettrait
pourtant d'apporter des réponses plus pertinentes. La détection d'émotion sur
des discussions textuelles a déjà été explorée pour l'anglais (SemEval 2019 Task
3), mais en français aucun dataset satisfaisant n'est disponible. Nous proposons
de traduire le dataset de dialogues EmotionLines, dont les répliques anglaises
sont issues de la série Friends, en exploitant sa diffusion en VF. Notre méthode
de génération de dataset par traduction est adaptable à tout dataset tiré de séries
ou films étrangers disponibles en VF. En utilisant ce dataset traduit, nous
proposons un classifier basé sur le modèle de langage BERT, permettant de détecter
l'émotion de l'utilisateur à partir de texte. Il tient compte du contexte de
la discussion pour affiner ses prédictions.