Apprentissage non supervisé de dépendances syntaxiques à partir de texte étiqueté, plusieurs variantes de PCFG légères
Abstract
L'apprentissage de dépendances est une tâche consistant à établir, à
partir des phrases d'un texte, un modèle de construction d'arbres traduisant une
hiérarchie syntaxique entre les mots. Nous proposons un modèle intermédiaire
entre l'analyse syntaxique complète de la phrase et les sacs de mots. Il est basé
sur une grammaire stochastique hors-contexte se traduisant par des relations de
dépendance entre les catégories grammaticales d'une phrase. Les résultats expérimentaux
obtenus sur des benchmarks attestés dépassent pour cinq langues sur
dix les scores de l'algorithme de référence DMV, et pour la première fois des
scores sont obtenus pour le français. La très grande simplicité de la grammaire
permet un apprentissage très rapide, et une analyse presque instantanée.