Codage et classification non supervisée d'un corpus maya : extraire des contextes pour situer l'inconnu par rapport au connu
Résumé
L'écriture logosyllabique des anciens Mayas comprend plus de 500
signes et est en bonne partie déchiffrée, avec des degrés de certitude divers.
Nous avons appliqué au codex de Dresde, l'un des trois seuls manuscrits qui
nous soient parvenus, codé sous LATEXavec le systèmemayaTEX, notre méthode
de représentation graduée, par apprentissage non supervisé hybride entre clustering
et analyse factorielle oblique, sous la métrique de Hellinger, afin d'obtenir
une image nuancée des thèmes traités : les individus statistiques sont les 212
segments de folio du codex, et leurs attributs sont les 1687 bigrammes de signes
extraits. Pour comparaison, nous avons introduit dans cette approche endogène
un élément exogène, la décomposition en éléments des signes composites, pour
préciser plus finement les contenus. La rétro-visualisation dans le texte original
des résultats et expressions dégagées éclaire la signification de certains glyphes
peu compris, en les situant dans des contextes clairement interprétables.