Requêtes discriminantes pour l'exploration des données
Résumé
À l'ère du Big Data, les profils d'utilisateurs deviennent de plus en
plus diversifiés et les données de plus en plus complexes, rendant souvent très
difficile l'exploration des données. Dans cet article, nous proposons une technique
de réécriture de requêtes pour aider les analystes à formuler leurs interrogations,
pour explorer rapidement et intuitivement les données. Nous introduisons
les requêtes discriminantes, une restriction syntaxique de SQL, avec
une condition de sélection qui dissocie des exemples positifs et négatifs. Nous
construisons un ensemble de données d'apprentissage dont les exemples positifs
correspondent aux résultats souhaités par l'analyste, et les exemples négatifs à
ceux qu'il ne veut pas. En utilisant des techniques d'apprentissage automatique,
la requête initiale est reformulée en une nouvelle requête, qui amorce un processus
itératif d'exploration des données. Nous avons implémenté cette idée dans
un prototype (iSQL) et nous avons mené des expérimentations dans le domaine
de l'astrophysique.