Généraliser l'adaptation de modèles de langue frugaux pour l'extraction de motifs RDF à partir de texte, à des relations de type Datatype et Object property

Célian Ringwald, Fabien Gandon, Catherine Faron, Franck Michel, Hanna Abi Akl

In EGC 2026, vol. RNTI-E-42, pp.399-406

Résumé

Les petits modèles de langage ont démontrés de bonne performances pour l'extraction de relations RDF à partir de shapes SHACL. Cet article, issu de notre travail accepté à K-CAP 2025, étudie leur capacité à traiter conjointement les propriétés de type Datatype et Object Property. Le principal défi réside dans l'extraction de propriétés rares. Pour y remédier, nous explorons plusieurs stratégies : échantillonnage stratifié, pondération de la perte, redimensionnement des données et génération synthétique par patrons. Les meilleurs résultats sont obtenus lorsque chaque propriété atteint un seuil minimal d'occurrences dans les données d'apprentissage. Nos données, résultats et code sont rendus publics afin d'assurer la reproductibilité. Ce travail propose ainsi des méthodes concrètes pour l'entraînement de SLM spécialisés et ouvre des perspectives pour l'extraction de relations sémantiques.

Aperçu Voir bibtex

Télécharger