Système de question-réponse multilingue appliqué aux agents conversationnels
Résumé
Les modèles de langages (e.g. BERT) permettent de résoudre avec
brio des tâches de TALN complexes comme le question-réponse. Cependant, les
jeux de données spécifiques à ces tâches sont principalement en anglais, ce qui
rend difficilement compte des progrès dans les autres langues. Heureusement,
les modèles commencent à être pré-entraînés dans des centaines de langues et
ont une bonne capacité de transfert zero-shot d'une langue à l'autre. Dans cet
article, nous montrons notamment que BERT multilingue, entraîné pour la tâche
de question-réponse en anglais, est capable de généraliser au français et au japonais. Nous présentons alors une application pratique Kate, agent conversationnel
dédié au support ressources humaines, qui répond aux questions posées par des
utilisateurs dans plusieurs langues à partir de contenus de pages d'intranet.