Extraction d'un modèle articulatoire à partir d'une analyse tri-directionnelle de cinéradiographies d'un locuteur
Résumé
Nous expérimentons ici un processus d'identification des sons de la
parole à partir d'images, et non d'enregistrements sonores comme habituellement
réalisé. Il s'agit de l'analyse de séquences cinéradiographiques d'une
personne prononçant plusieurs phrases. Des difficultés se présentent. La première,
technique, est que ces données proviennent d'images annotées en plusieurs
lieux, temps, et de manière semi-automatique ou manuelle. La deuxième,
représentationnelle, est que les mouvements des articulateurs pendant la parole
(langue, mâchoire, etc.) se situent dans un espace-temps complexe du fait des
interdépendances mécaniques multiples et dynamiques. Le modèle articulatoire
le plus connu est celui de Maeda (1990), obtenu à partir d'Analyses en Composantes
Principales faites sur les tableaux de coordonnées des points des articulateurs
d'un locuteur en train de parler. Nous proposons ici une analyse tridirectionnelle
du même type de données, après leur transformation en une suite
de tableaux de distances. Nous validons notre modèle par la prédiction des sons
prononcés, qui s'avère presque aussi bonne que celle du modèle acoustique, et
même meilleure quand on prend en compte la coarticulation.