Un nouvel algorithme de forêts aléatoires d'arbres obliques particulièrement adapté à la classification de données en grandes dimensions
Résumé
L'algorithme des forêts aléatoires proposé par Breiman permet d'ob-
tenir de bons résultats en fouille de données comparativement à de nombreuses
approches. Cependant, en n'utilisant qu'un seul attribut parmi un sous-ensemble
d'attributs tiré aléatoirement pour séparer les individus à chaque niveau de l'arbre,
cet algorithme perd de l'information. Ceci est particulièrement pénalisant avec
les ensembles de données en grandes dimensions où il peut exister de nom-
breuses dépendances entre attributs. Nous présentons un nouvel algorithme de
forêts aléatoires d'arbres obliques obtenus par des séparateurs à vaste marge
(SVM). La comparaison des performances de notre algorithme avec celles de
l'algorithme de forêts aléatoires des arbres de décision C4.5 et de l'algorithme
SVM montre un avantage significatif de notre proposition.