Réduction des dimensions des données en apprentissage artificiel
Abstract
Depuis plusieurs décénies, le volume des données disponibles ne cesse
de croître ; alors qu'au début des années 80 le volume des bases de données se
mesurait en mega-octets, il s'exprime aujourd'hui en tera-octets et parfois même
en peta-octets. Le nombre de variables et le nombre d'exemples peuvent prendre
des valeurs très élevés, et cela peut poser un problème lors de l'exploration et
l'analyse des données. Ainsi, le développement d'outils de traitement adaptés
aux données volumineuses est un enjeu majeur de la fouille de données. La réduction
des dimensions permet notament de faciliter la visualisation et la compréhension
des données, de réduire l'espace de stockage nécessaire et le temps
d'exploitation, et enfin d'identifier les facteurs pertinents. Dans cet article, nous
présentons un panarama des techniques de réduction des dimensions essentiellement
basées sur la sélection de variables supervisée et non supervisée, et sur
les méthodes géométriques de réduction de dimensions.