MonoASR: un modèle de reconnaissance vocale multilingue frugal et unifié
Résumé
La reconnaissance automatique de la parole (RAP) convertit la langue
parlée en texte et constitue un enjeu majeur. Les modèles récents, tels que Massively
Multilingual Speech (MMS), couvrent des centaines de langues mais nécessitent
l'ajout d'adaptateurs pour chaque langue, ce qui augmente le coût en
paramètres et freine l'extensibilité, notamment pour les langues faiblement annotées.
Nous introduisons MonoASR, un système multilingue frugal et unifié
qui évite ces adaptateurs grâce à une Projection Linguistique Universelle (ULP).
Celle-ci associe un token de langue appris aux représentations acoustiques, permettant
d'utiliser le même modèle et les mêmes paramètres pour différentes
langues. Testé sur le français (langue fortement annotée), l'arabe et le kabyle 1
(langues sous-représentées et complexes), MonoASR obtient des taux d'erreur
(WER) inférieurs à MMS, confirmant sa robustesse, sa généralisation et son intérêt
pour une transcription multilingue à faible coût. Le code est disponible à
: https://github.com/ilyesqlm/MonoASR