RNTI

MODULAD
Exploration des mémoires à court et long terme pour la classification multi-labels en flux
In EGC 2021, vol. RNTI-E-37, pp.59-70
Résumé
La classification multi-labels, dans laquelle un texte, une image ou une cyber-attaque, par exemple, peuvent être associés à plusieurs labels simultanément devient de plus en plus nécessaire dans les applications récentes. Lorsque les besoins de réactivité sont eux-mêmes cruciaux, la classification de flux de données devient un enjeu important. Nous proposons dans cet article un nouvel algorithme, Online Memory k-means (OMk), pour traiter la problématique de la classification en flux. OMk est un modèle de type k-plus-proches-voisins qui utilise deux types de mémoire, l'une court-terme basée sur une fenêtre glissante FIFO, et l'autre long-terme, basée sur un échantillonnage en réservoir. Ces deux mémoires permettent de gérer les flux de données avec des dérives de concepts et de pouvoir résister au phénomène d'oubli catastrophique. En utilisant ces structures de données simples avec des tailles de mémoire relativement limitées et en considérant l'information portée par les corrélations entre labels, notre algorithme est compétitif avec les algorithmes actuels de l'état de l'art, EaHTps et MLSAMPKNN, à la fois en qualité de prédiction et en temps de réponse. La faible complexité d'OMk et les performances obtenues nous permettent d'envisager son extension à la classification multi-labels extrême de données en flux, qui est un problème encore peu exploré.