De représentations de documents à programmes : l'hypothèse distributionnelle peut-elle vraiment être utilisée sur les langages de programmation?
Résumé
Les nombreux modèles d'apprentissage profond développés pour manipuler
du code informatique s'appuient quasi-exclusivement sur des modèles
dédiés au langage naturel et à son hypothèse distributionnelle. Nous proposons
ici d'évaluer si cette hypothèse s'applique réellement au code informatique.
Nous nous appuyons sur plusieurs méthodes d'exploration que nous appliquons
à différentes variantes d'un modèle classique du traitement automatique des
langues : doc2vec, modèle simple, facile à comprendre et à adapter. Entre autres
contributions nous proposons un jeu de programmes permettant d'observer les
phénomènes d'analogies entre codes, sur les plans syntaxiques et sémantiques.