CRAFTML, une forêt aléatoire efficace pour l'apprentissage multi-label extrême

Wissam Siblini, Frank Meyer, Pascale Kuntz

In EGC 2019, vol. RNTI-E-35, pp.383-388

Résumé

L'apprentissage multi-label extrême (noté XML pour "eXtreme Multilabel Learning") considère de grands volumes de données où chaque observation est annotée avec quelques labels parmi des centaines de milliers de possibilités. Les méthodes basées sur les arbres, qui divisent hiérarchiquement l'apprentissage en sous-problèmes à petite échelle, sont particulièrement prometteuses dans ce contexte pour réduire les complexités d'apprentissage et de prédiction et pour ouvrir la voie à la parallélisation. Cependant, les meilleures approches actuelles n'exploitent pas la diversification des arbres qui a pourtant montré son efficacité dans les forêts aléatoires et elles ont recours à des stratégies de partitionnement complexes. Pour surmonter ces limites, nous introduisons ici un nouvel algorithme de forêt avec des arbres diversifiés et une stratégie de partitionnement adaptée à l'XML appelé CRAFTML. Des comparaisons expérimentales sur huit jeux de données tirés de la littérature extrême montrent qu'il est plus performant que les autres approches arborescentes de l'état de l'art.

Aperçu Voir bibtex

Télécharger