Évaluation des propriétés multilingues d'un embedding contextualisé
Résumé
Les modèles d'apprentissage profond comme BERT, un empilement
de couches d'attention avec un pré-entraînement non supervisé sur de larges
corpus, sont devenus la norme en NLP. mBERT, une version pré-entraînée sur
des corpus monolingues dans 104 langues, est ensuite capable d'apprendre une
tâche dans une langue et de la généraliser à une autre. Cette capacité de généralisation
ouvre la perspective de modèles efficaces dans des langues avec peu
de données annotées, mais reste encore largement inexpliquée. Nous proposons
une nouvelle méthode fondée sur des mots traduits en contexte plutôt que des
phrases pour analyser plus finement la similarité de représentations contextualisées
à travers les langues. Nous montrons que les représentations de différentes
langues apprises par mBERT sont plus proches pour des couches profondes, et
dépassent les modèles spécifiquement entraînés pour être alignés.