Exploration des mémoires à court et long terme pour la classification multi-labels en flux
Résumé
La classification multi-labels, dans laquelle un texte, une image ou une
cyber-attaque, par exemple, peuvent être associés à plusieurs labels simultanément
devient de plus en plus nécessaire dans les applications récentes. Lorsque
les besoins de réactivité sont eux-mêmes cruciaux, la classification de flux de
données devient un enjeu important. Nous proposons dans cet article un nouvel
algorithme, Online Memory k-means (OMk), pour traiter la problématique de
la classification en flux. OMk est un modèle de type k-plus-proches-voisins qui
utilise deux types de mémoire, l'une court-terme basée sur une fenêtre glissante
FIFO, et l'autre long-terme, basée sur un échantillonnage en réservoir. Ces deux
mémoires permettent de gérer les flux de données avec des dérives de concepts et
de pouvoir résister au phénomène d'oubli catastrophique. En utilisant ces structures
de données simples avec des tailles de mémoire relativement limitées et
en considérant l'information portée par les corrélations entre labels, notre algorithme
est compétitif avec les algorithmes actuels de l'état de l'art, EaHTps et
MLSAMPKNN, à la fois en qualité de prédiction et en temps de réponse. La
faible complexité d'OMk et les performances obtenues nous permettent d'envisager
son extension à la classification multi-labels extrême de données en flux,
qui est un problème encore peu exploré.