Un environnement efficace pour la classification d'images à grande échelle
Abstract
La plupart des processus de classification d'images comportent trois
principales étapes : l'extraction de descripteurs de bas niveaux, la création d'un
vocabulaire visuel par quantification et l'apprentissage à l'aide d'un algorithme
de classification (eg.SVM). De nombreux problèmes se posent pour le passage
à l'échelle comme avec l'ensemble de données ImageNet contenant 14 millions
d'images et 21,841 classes. La complexité concerne le temps d'exécution de
chaque tâche et les besoins en mémoire et disque (eg. le stockage des SIFTs nécessite
11To). Nous présentons une version parallèle de LibSVM pour traiter de
grands ensembles de données dans un temps raisonnable. De plus, il y a beaucoup
de perte d'information lors de la phase de quantification et les mots visuels
obtenus ne sont pas assez discriminants pour de grands ensembles d'images.
Nous proposons d'utiliser plusieurs descripteurs simultanément pour améliorer
la précision de la classification sur de grands ensembles d'images. Nous présentons
nos premiers résultats sur les 10 plus grandes classes (24,817 images)
d'ImageNet.