A la croisée des langues : Annotation et fouille de corpus plurilingues

In MASHS 2014, vol. RNTI-SHS-2, pp.81-100

Résumé

Un programme de recherche en cours sur l'étude des phénomènes de contact de langues et de leur rôle dans le changement linguistique s'attache à recueillir des corpus plurilingues, témoignant d'une grande variété de phénomènes de contact sur un échantillon suffisamment varié de langues génétiquement et typologiquement distinctes. Cet effort a impliqué le développement d'une chaîne de traitement des corpus numériques qui tienne compte des spécificités des corpus plurilingues, pour la représentation des données linguistiques, leur stockage, leur annotation, leur visualisation, et les traitements de recherche d'information. Les normes existantes ont dû être étendues pour prendre en compte l'appartenance potentielle d'unités à plusieurs langues dans les pratiques langagières plurilingues. Dans cet article, nous décrivons la manière dont a été définie la structure de ces corpus plurilingues, et la conception technique de l'unité linguistique multilingue qui préside à la fouille de données dans ces corpus.

Aperçu Voir bibtex

Télécharger