RNTI

MODULAD
Découverte de labels dupliqués par l'exploration du treillis des classifieurs binaires
In EGC 2016, vol. RNTI-E-30, pp.255-266
Résumé
L'analyse des données comportementales représente aujourd'hui un grand enjeu. Tout individu génère des traces d'activité et de mobilité. Lorsqu'elles sont associées aux individus, ou labels, qui les ont créées, il est possible de construire un modèle qui prédit avec précision l'appartenance d'une nouvelle trace. Sur internet, il est cependant fréquent qu'un utilisateur possède différentes identités virtuelles, ou labels doublons. Les ignorer provoque une grande réduction de la précision de l'identification. Il est ainsi question dans cet article du problème de déduplication de labels, et l'on présente une méthode originale basée sur l'exploration du treillis des classifieurs binaires. Chaque sous-ensemble de labels est classifié face à son complémentaire et des contraintes rendent possible l'identification des labels doublons en élaguant l'espace de recherche. Des expérimentations sont menées sur des données issues du jeu vidéo STARCRAFT 2. Les résultats sont de bonne qualité et encourageants.