Codage et classification non supervisée d'un corpus maya : extraire des contextes pour situer l'inconnu par rapport au connu

Mohamed Hallab, Bruno Delprat, Alain Lelu

In EGC 2010, vol. RNTI-E-19, pp.573-584

Résumé

L'écriture logosyllabique des anciens Mayas comprend plus de 500 signes et est en bonne partie déchiffrée, avec des degrés de certitude divers. Nous avons appliqué au codex de Dresde, l'un des trois seuls manuscrits qui nous soient parvenus, codé sous LATEXavec le systèmemayaTEX, notre méthode de représentation graduée, par apprentissage non supervisé hybride entre clustering et analyse factorielle oblique, sous la métrique de Hellinger, afin d'obtenir une image nuancée des thèmes traités : les individus statistiques sont les 212 segments de folio du codex, et leurs attributs sont les 1687 bigrammes de signes extraits. Pour comparaison, nous avons introduit dans cette approche endogène un élément exogène, la décomposition en éléments des signes composites, pour préciser plus finement les contenus. La rétro-visualisation dans le texte original des résultats et expressions dégagées éclaire la signification de certains glyphes peu compris, en les situant dans des contextes clairement interprétables.

Aperçu Voir bibtex

Télécharger