Interaction retardée dans l'encodeur du Transformer pour répondre efficacement aux questions dans un domaine ouvert
Résumé
La tâche de question-réponse sur un large corpus de documents (par
exempleWikipedia) est un défi majeur en informatique. Bien que les modèles de
langage basés sur le Transformer tels que Bert aient montré une capacité à surpasser
les humains pour extraire des réponses dans des petits passages de texte
pré-sélectionnés, ils souffrent de leur grande complexité si l'espace de recherche
est beaucoup plus grand. La façon la plus répandue de faire face à ce problème
consiste à ajouter une étape préliminaire de recherche d'information pour filtrer
fortement le corpus et ne conserver que les passages pertinents. Dans cet
article, nous proposons une solution plus directe et complémentaire qui consiste
à modifier l'architecture des modèles à base de Transformer pour permettre une
gestion plus efficace des calculs. Les modèles qui en résultent sont compétitifs
avec ceux d'origine et permettent, en domaine ouvert, une accélération significative
des prédictions et parfois même une amélioration de la qualité de réponse.