De représentations de documents à programmes : l'hypothèse distributionnelle peut-elle vraiment être utilisée sur les langages de programmation?

Thibaut Martinet, Guillaume Cleuziou, Matthieu Exbrayat, Frédéric Flouvat

In EGC 2025, vol. RNTI-E-41, pp.427-434

Résumé

Les nombreux modèles d'apprentissage profond développés pour manipuler du code informatique s'appuient quasi-exclusivement sur des modèles dédiés au langage naturel et à son hypothèse distributionnelle. Nous proposons ici d'évaluer si cette hypothèse s'applique réellement au code informatique. Nous nous appuyons sur plusieurs méthodes d'exploration que nous appliquons à différentes variantes d'un modèle classique du traitement automatique des langues : doc2vec, modèle simple, facile à comprendre et à adapter. Entre autres contributions nous proposons un jeu de programmes permettant d'observer les phénomènes d'analogies entre codes, sur les plans syntaxiques et sémantiques.

Aperçu Voir bibtex

Télécharger