RNTI

MODULAD
Apprentissage et évaluation de plongements lexicaux sur un corpus SNCF en langue spécialisée
In EGC 2019, vol. RNTI-E-35, pp.279-284
Résumé
Au sein du groupe SNCF, le programme PRISME d'excellence sécu- rité intègre une démarche de simplification de l'accès à l'information et de la production de contenus dans la documentation métier. Dans ce contexte, nous avons mis en œuvre des traitements sur un corpus de référentiels métiers SNCF afin de guider l'utilisateur dans sa recherche documentaire. Les travaux présen- tés visent à évaluer l'usage des plongements lexicaux pour générer des repré- sentations sémantiques denses sur lesquelles se baseront des méthodes de deep learning pour structurer le corpus SNCF. Le protocole mis en place consiste en l'évaluation empirique des voisinages de mots par des experts. Dans cette étude, nous montrons les difficultés d'apprentissage et d'évaluation inhérentes à ce type de corpus avec de nombreux mots soit très spécifiques, soit polysémiques, ren- dant la construction d'un espace de représentations robuste difficile.