Apprentissage multi-labels et multi-tâches en continu pour données tabulaires: proposition d'un protocole de création de tâches et évaluation de classifieurs
Résumé
De récents progrès ont été réalisés dans le domaine de la classification
multi-labels en flux, où une instance peut être associée à plusieurs labels simultanément.
Les recherches les plus récentes se sont concentrées sur l'adaptation des
modèles à la distribution dynamique des flux de données non-stationnaires. Cependant,
l'apprentissage continu ne se réduit pas à une adaptation à la dérive de
concept : des phénomènes tels que l'oubli catastrophique, ainsi que les transferts
en avant et en arrière apparaissent lorsque de nouvelles tâches de classification
apparaissent dans le flux de données. L'objectif de cet article est d'élaborer un
protocole standardisé d'évaluation spécifiquement adapté à l'étude de ces phénomènes
pour identifier les stratégies les plus prometteuses pour ce nouveau problème
d'apprentissage multi-labels et multi-tâches sur des données tabulaires en
flux. Ce protocole inclut (i) la création de flux multi-labels et multi-tâches et (ii)
un protocole d'évaluation permettant de mesurer (a) les performances en ligne,
(b) les phénomènes liés à l'apprentissage continu et (c) les ressources consommées.
Ce protocole est utilisé pour la comparaison de 12 stratégies de classification
multi-labels continue sur 4 jeux de données ouvertes de la littérature et 3
jeux de données simulées. Cette analyse exploratoire nous a permis d'identifier
le caractère prometteur des réseaux de neurones frugaux couplés à un rejeu de
données.