Sous-échantillonnage topographique par apprentissage semi-supervisé
Abstract
Plusieurs aspects pourraient influencer les systèmes d'apprentissage existants.
Un de ces aspects est lié au déséquilibre des classes dans lequel le nombre d'observations
appartenant à une classe, dépasse fortement celui des observations dans les autres
classes. Dans ce type de cas assez fréquent, le système d'apprentissage a des difficultés
au cours de la phase d'entraînement liées au déséquilibre inter-classe. Nous proposons
une méthode de sous-échantillonnage adaptatif pour traiter ce type de bases déséquilibrées.
Le processus procède par le sous-échantillonnage des données majoritaires, guidé
par les données minoritaires tout au long de la phase d'un apprentissage semi-supervisée.
Nous utilisons comme modèle d'apprentissage les cartes auto-organisatrices. L'approche
proposée a été validée sur plusieurs bases de données en utilisant les arbres de décision
comme classificateur avec une validation croisée. Les résultats expérimentaux ont montré
des performances très prometteuses.