RNTI

MODULAD
MonoASR: un modèle de reconnaissance vocale multilingue frugal et unifié
In EGC 2026, vol. RNTI-E-42, pp.169-180
Résumé
La reconnaissance automatique de la parole (RAP) convertit la langue parlée en texte et constitue un enjeu majeur. Les modèles récents, tels que Massively Multilingual Speech (MMS), couvrent des centaines de langues mais nécessitent l'ajout d'adaptateurs pour chaque langue, ce qui augmente le coût en paramètres et freine l'extensibilité, notamment pour les langues faiblement annotées. Nous introduisons MonoASR, un système multilingue frugal et unifié qui évite ces adaptateurs grâce à une Projection Linguistique Universelle (ULP). Celle-ci associe un token de langue appris aux représentations acoustiques, permettant d'utiliser le même modèle et les mêmes paramètres pour différentes langues. Testé sur le français (langue fortement annotée), l'arabe et le kabyle 1 (langues sous-représentées et complexes), MonoASR obtient des taux d'erreur (WER) inférieurs à MMS, confirmant sa robustesse, sa généralisation et son intérêt pour une transcription multilingue à faible coût. Le code est disponible à : https://github.com/ilyesqlm/MonoASR