Le forage distribué des données : une méthode simple, rapide et efficace
Abstract
Dans cet article nous nous attaquons au problème du forage de très
grandes bases de données distribuées. Le résultat visé est un modèle qui soit et
prédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposons
de miner à distance chaque base de données indépendamment. Puis, il s'agit
de regrouper les modèles produits (appelés classificateurs de base), sachant que
chaque forage produira un modèle prédictif et descriptif, représenté pour nos besoins
par un ensemble de règles de classification. Afin de guider l'assemblage de
l'ensemble final de règles, qui sera l'union des ensembles individuels de règles,
un coefficient de confiance est attribué à chaque règle de chaque ensemble. Ce
coefficient, calculé par des moyens statistiques, représente la confiance que nous
pouvons avoir dans chaque règle en fonction de sa couverture et de son taux d'erreur
face à sa capacité d'être appliquée correctement sur de nouvelles données.
Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l'agrégation
pure et simple de tous les classificateurs de base pour obtenir un agrégat
de règles produit un méta-classificateur rapide et efficace par rapport aux techniques
existantes.