Représentation des données par un comité de cartes auto-organisatrices : une application aux données bruitées.

In AAFD 2009, vol. RNTI-A-3, pp.177-202

Résumé

Grâce aux approches ensemblistes, les performances en apprentissage supervisé sont devenues excellentes sans pour autant être trop coûteuses en temps. Cependant, ces méthodes ne permettent que la prédiction des données. Or, le couplage entre la prédiction et une méthode de représentation ajoute une valeur qualitative. La représentation permet de redonner la main à l'utilisateur, que ce soit avant la prédiction pour visualiser les données et juger de la qualité du modèle ou après en permettant l'exploration des exemples qui ont conduit à la prédiction. En outre, une représentation des données – obtenue indépendamment de la variable de classe – est robuste au bruit sur la variable de classe puisque celle-ci n'est pas intégrée dans l'apprentissage. Les données en grandes dimensions posent toutefois le problème d'obtenir une représentation de qualité en un temps raisonnable. Dans ce contexte, nous proposons le recours à un comité de cartes auto-organisatrices dont l'apprentissage est synthétisé par une carte supplémentaire, apprise grâce à un stacking de la position des neurones. Le comité tire parti du concept de diversité pour assurer une prédiction de qualité alors que le stacking géographique offre une représentation synthétique facilement manipulable par l'utilisateur final. Les expérimentations montrent que cette stratégie est compétitive par rapport aux approches spécialisées dans la prédiction tout en permettant une représentation des données. Enfin, elle permet de gérer des niveaux de bruit importants.

Aperçu Voir bibtex

Télécharger