Représentation des données par un comité de cartes auto-organisatrices : une application aux données bruitées.
Abstract
Grâce aux approches ensemblistes, les performances en apprentissage
supervisé sont devenues excellentes sans pour autant être trop coûteuses en
temps. Cependant, ces méthodes ne permettent que la prédiction des données.
Or, le couplage entre la prédiction et une méthode de représentation ajoute une
valeur qualitative. La représentation permet de redonner la main à l'utilisateur,
que ce soit avant la prédiction pour visualiser les données et juger de la qualité
du modèle ou après en permettant l'exploration des exemples qui ont conduit à la
prédiction. En outre, une représentation des données – obtenue indépendamment
de la variable de classe – est robuste au bruit sur la variable de classe puisque
celle-ci n'est pas intégrée dans l'apprentissage. Les données en grandes dimensions
posent toutefois le problème d'obtenir une représentation de qualité en un
temps raisonnable. Dans ce contexte, nous proposons le recours à un comité de
cartes auto-organisatrices dont l'apprentissage est synthétisé par une carte supplémentaire,
apprise grâce à un stacking de la position des neurones. Le comité
tire parti du concept de diversité pour assurer une prédiction de qualité alors que
le stacking géographique offre une représentation synthétique facilement manipulable
par l'utilisateur final. Les expérimentations montrent que cette stratégie
est compétitive par rapport aux approches spécialisées dans la prédiction tout
en permettant une représentation des données. Enfin, elle permet de gérer des
niveaux de bruit importants.