Extraction d'un modèle articulatoire à partir d'une analyse tri-directionnelle de cinéradiographies d'un locuteur

In FDC 2016, vol. RNTI-E-31, pp.73-92

Résumé

Nous expérimentons ici un processus d'identification des sons de la parole à partir d'images, et non d'enregistrements sonores comme habituellement réalisé. Il s'agit de l'analyse de séquences cinéradiographiques d'une personne prononçant plusieurs phrases. Des difficultés se présentent. La première, technique, est que ces données proviennent d'images annotées en plusieurs lieux, temps, et de manière semi-automatique ou manuelle. La deuxième, représentationnelle, est que les mouvements des articulateurs pendant la parole (langue, mâchoire, etc.) se situent dans un espace-temps complexe du fait des interdépendances mécaniques multiples et dynamiques. Le modèle articulatoire le plus connu est celui de Maeda (1990), obtenu à partir d'Analyses en Composantes Principales faites sur les tableaux de coordonnées des points des articulateurs d'un locuteur en train de parler. Nous proposons ici une analyse tridirectionnelle du même type de données, après leur transformation en une suite de tableaux de distances. Nous validons notre modèle par la prédiction des sons prononcés, qui s'avère presque aussi bonne que celle du modèle acoustique, et même meilleure quand on prend en compte la coarticulation.

Aperçu Voir bibtex

Télécharger