RNTI

MODULAD
Analyse comparative de méthodes d'apprentissage pour la catégorisation d'un texte selon sa langue de rédaction
In EGC 2023, vol. RNTI-E-39, pp.345-352
Résumé
L'objectif de cette étude est double. Il s'agit, d'une part, de catégoriser des textes romanesques en français pour permettre à un utilisateur de déterminer s'ils sont originaux ou traduits, c'est-à-dire nativement rédigés en français ou non. D'autre part, de procéder à une analyse comparative et d'optimiser les méthodes choisies pour obtenir ce résultat. Les données textuelles considérées ici sont volumineuses, variées thématiquement et stylistiquement. Les quatre méthodes mises en œuvre – qui prennent en compte aussi bien les caractéristiques fréquentielles, que lexicales, syntaxiques ou sémantiques – reposent sur un apprentissage automatique. L'analyse comparative des approches porte sur l'espace de représentation des données, le paramétrage, les taux de classifications (par classes et global) et l'explicabilité.