RNTI

MODULAD
Réduction des dimensions des données en apprentissage artificiel
In AAFD 2008, vol. RNTI-A-2, pp.135-165
Résumé
Depuis plusieurs décénies, le volume des données disponibles ne cesse de croître ; alors qu'au début des années 80 le volume des bases de données se mesurait en mega-octets, il s'exprime aujourd'hui en tera-octets et parfois même en peta-octets. Le nombre de variables et le nombre d'exemples peuvent prendre des valeurs très élevés, et cela peut poser un problème lors de l'exploration et l'analyse des données. Ainsi, le développement d'outils de traitement adaptés aux données volumineuses est un enjeu majeur de la fouille de données. La réduction des dimensions permet notament de faciliter la visualisation et la compréhension des données, de réduire l'espace de stockage nécessaire et le temps d'exploitation, et enfin d'identifier les facteurs pertinents. Dans cet article, nous présentons un panarama des techniques de réduction des dimensions essentiellement basées sur la sélection de variables supervisée et non supervisée, et sur les méthodes géométriques de réduction de dimensions.