Un système collectif d'utilisation d'un grand ensemble de classifieurs sur le Cloud pour la classification de Big Data
Résumé
Au vu de l'évolution des volumes de données (Big Data) et des problématiques
associées (vélocité, variété et véracité), nous proposons dans cet
article la conception d'un nouveau système collectif d'utilisation massive d'ensemble
de classifieurs pour les Big Data sur le Cloud. Nous combinons les avantages
de la labellisation par consensus entre plusieurs décisions de classifieurs
distribués sur le Cloud avec l'utilisation du paradigme Map/Reduce pour l'apprentissage
des modèles par chacun des classifieurs. Pour cela, nous considérons
un réseau de classifieurs déployé sur le Cloud. Par l'intermédiaire des Mappers,
nous répartissons les données d'apprentissage sur les différents noeuds (classifieurs)
tandis que les Reducers lancent la phase d'apprentissage et retourne le
modèle du classifieur ainsi qu'un indicateur de performance à optimiser. Ensuite,
pour chaque donnée qui arrive, quel que soit le noeud du réseau sur lequel
elle arrive, le noeud labellise la donnée et demande à ces voisins d'en faire tout
autant. Ils forment ainsi un ensemble de classifieurs. Enfin, à l'aide d'un vote
majoritaire pondéré, le noeud questionné renvoie la décision finale. Ainsi, plus
le voisinage est étendu, plus la performance cherchée s'améliore. Cependant, il
faut limiter cette extension car sinon nous n'obtenons plus des temps de traitements
compatibles avec les Big Data.