A la croisée des langues : Annotation et fouille de corpus plurilingues
Abstract
Un programme de recherche en cours sur l'étude des phénomènes de
contact de langues et de leur rôle dans le changement linguistique s'attache à recueillir
des corpus plurilingues, témoignant d'une grande variété de phénomènes
de contact sur un échantillon suffisamment varié de langues génétiquement et typologiquement
distinctes. Cet effort a impliqué le développement d'une chaîne
de traitement des corpus numériques qui tienne compte des spécificités des corpus
plurilingues, pour la représentation des données linguistiques, leur stockage,
leur annotation, leur visualisation, et les traitements de recherche d'information.
Les normes existantes ont dû être étendues pour prendre en compte l'appartenance
potentielle d'unités à plusieurs langues dans les pratiques langagières
plurilingues. Dans cet article, nous décrivons la manière dont a été définie la
structure de ces corpus plurilingues, et la conception technique de l'unité linguistique
multilingue qui préside à la fouille de données dans ces corpus.