Généraliser l'adaptation de modèles de langue frugaux pour l'extraction de motifs RDF à partir de texte, à des relations de type Datatype et Object property
Résumé
Les petits modèles de langage ont démontrés de bonne performances
pour l'extraction de relations RDF à partir de shapes SHACL. Cet article, issu
de notre travail accepté à K-CAP 2025, étudie leur capacité à traiter conjointement
les propriétés de type Datatype et Object Property. Le principal défi réside
dans l'extraction de propriétés rares. Pour y remédier, nous explorons plusieurs
stratégies : échantillonnage stratifié, pondération de la perte, redimensionnement
des données et génération synthétique par patrons. Les meilleurs résultats sont
obtenus lorsque chaque propriété atteint un seuil minimal d'occurrences dans les
données d'apprentissage. Nos données, résultats et code sont rendus publics afin
d'assurer la reproductibilité. Ce travail propose ainsi des méthodes concrètes
pour l'entraînement de SLM spécialisés et ouvre des perspectives pour l'extraction
de relations sémantiques.