Génération de RDF à partir de sources de données aux formats hétérogènes
Résumé
Contrairement à ce que promeut le Web des données, les données exposées
par la plupart des organisations sont dans des formats non-RDF tels que
CSV, JSON, ou XML. De plus sur le Web des objets, les objets contraints préféreront
des formats binaires tels que EXI ou CBOR aux formats RDF textuels.
Dans ce contexte, RDF peut toutefois servir de lingua franca pour l'interopérabilité
sémantique, l'intégration de données aux formats hétérogènes, le raisonnement,
et le requêtage. Dans ce but, plusieurs outils et formalismes permettent
de transformer des documents non-RDF vers RDF, les plus flexibles étant basés
sur des langages de transformation ou de correspondance (GRDDL, XSPARQL,
R2RML, RML, CSVW, etc.). Cet article définit un nouveau langage, SPARQLGenerate,
qui permet de générer du RDF à partir: (i) d'une base de données RDF,
et (ii) d'un nombre quelconque de documents aux formats arbitraires. L'originalité
de SPARQL-Generate est qu'il étend SPARQL 1.1, et peut donc (i) être
appris facilement par les ingénieurs de la connaissance familiers de SPARQL,
(ii) être implémenté au dessus de n'importe quel moteur SPARQL existant, (iii)
tirer parti des mécanismes d'extension de SPARQL pour prendre en compte de
futurs formats.