Un protocole d'expérimentation sur les propriétés graphémiques avec l'algorithme SOM
Résumé
Nous présentons une recherche sur la distribution et la classification
non-supervisée des graphèmes. Nous visons à réduire l'écart entre les résultats
de recherches récentes qui montrent la capacité des algorithmes d'apprentissage
et de classification non-supervisée pour détecter les propriétés de phonèmes, et
les possibilités actuelles de la représentation textuelle d'Unicode. Nos procédures
doivent assurer la reproductibilité des expériences et garantir que l'information
recherchée n'est pas implicitement présente dans le pré-traitement des
données. Notre approche est capable de catégoriser correctement de potentiels
graphèmes, ce qui montre que les propriétés phonologiques sont présentes dans
les données textuelles, et peuvent être automatiquement extraites à partir des
données textuelles brutes en Unicode, sans avoir besoin de les traduire en représentations
phonologiques.