CRAFTML, une forêt aléatoire efficace pour l'apprentissage multi-label extrême
Résumé
L'apprentissage multi-label extrême (noté XML pour "eXtreme Multilabel
Learning") considère de grands volumes de données où chaque observation
est annotée avec quelques labels parmi des centaines de milliers de possibilités.
Les méthodes basées sur les arbres, qui divisent hiérarchiquement l'apprentissage
en sous-problèmes à petite échelle, sont particulièrement prometteuses dans
ce contexte pour réduire les complexités d'apprentissage et de prédiction et pour
ouvrir la voie à la parallélisation. Cependant, les meilleures approches actuelles
n'exploitent pas la diversification des arbres qui a pourtant montré son efficacité
dans les forêts aléatoires et elles ont recours à des stratégies de partitionnement
complexes. Pour surmonter ces limites, nous introduisons ici un nouvel algorithme
de forêt avec des arbres diversifiés et une stratégie de partitionnement
adaptée à l'XML appelé CRAFTML. Des comparaisons expérimentales sur huit
jeux de données tirés de la littérature extrême montrent qu'il est plus performant
que les autres approches arborescentes de l'état de l'art.