Extension de C-SPARQL pour l'échantillonnage de flux de graphes RDF
Résumé
Les technologies du web sémantique sont de plus en plus utilisées
pour la gestion de flux de données. Plusieurs systèmes de traitement de flux
RDF ont été proposés : C-SPARQL, CQELS, SPARQLstream, EP-SPARQL,
SPARKWAVE, etc. Ces derniers étendent tous à la base, le langage d'interrogation
sémantique SPARQL. Les données à l'entrée du système sont volumineuses
et générées en continu à un rythme rapide et variable. De ce fait, le stockage et
le traitement de la totalité du flux deviennent coûteux et le raisonnement presque
impossible. Par conséquent, le recours à des techniques permettant de réduire la
charge tout en conservant la sémantique des données, permet d'optimiser les traitements
voire le raisonnement. Cependant, aucune des extensions de SPARQL
n'inclut cette fonctionnalité. Ainsi, dans cet article, nous proposons d'étendre le
système C-SPARQL pour générer des échantillons à la volée sur flux de graphes
RDF. Nous ajoutons trois opérateurs d'échantillonnage (UNIFORM, RESERVOIR
et CHAIN) à la syntaxe de C-SPARQL. Les expérimentations montrent la
performance de notre extension en terme de temps d'exécution, et de la préservation
de la sémantique des données.