Apprentissage et évaluation de plongements lexicaux sur un corpus SNCF en langue spécialisée
Résumé
Au sein du groupe SNCF, le programme PRISME d'excellence sécu-
rité intègre une démarche de simplification de l'accès à l'information et de la
production de contenus dans la documentation métier. Dans ce contexte, nous
avons mis en œuvre des traitements sur un corpus de référentiels métiers SNCF
afin de guider l'utilisateur dans sa recherche documentaire. Les travaux présen-
tés visent à évaluer l'usage des plongements lexicaux pour générer des repré-
sentations sémantiques denses sur lesquelles se baseront des méthodes de deep
learning pour structurer le corpus SNCF. Le protocole mis en place consiste en
l'évaluation empirique des voisinages de mots par des experts. Dans cette étude,
nous montrons les difficultés d'apprentissage et d'évaluation inhérentes à ce type
de corpus avec de nombreux mots soit très spécifiques, soit polysémiques, ren-
dant la construction d'un espace de représentations robuste difficile.