Détection d'entités quasi-dupliquées dans une base de connaissances avec PIKA
Résumé
Cet article explore l'utilisation des modèles de réseaux de neurones
adaptés aux graphes pour produire des représentations vectorielles des noeuds
afin de résoudre le problème de la détection d'éléments similaires dans une base
de connaissances. En s'appuyant sur des modèles pré-entraînés pour la similarité
sémantique textuelle, notre méthode proposée, PIKA, agrège les caractéristiques
hétérogènes (structurées et non structurées) d'une entité et de son voisinage pour
produire un vecteur pouvant être utilisé dans différentes tâches telles que la recherche
d'information ou la classification. Notre méthode apprend des poids
spécifiques pour chaque type d'information apportée par une entité, ce qui nous
permet de la traiter de manière inductive.