Découverte de labels dupliqués par l'exploration du treillis des classifieurs binaires
Résumé
L'analyse des données comportementales représente aujourd'hui un
grand enjeu. Tout individu génère des traces d'activité et de mobilité. Lorsqu'elles
sont associées aux individus, ou labels, qui les ont créées, il est possible
de construire un modèle qui prédit avec précision l'appartenance d'une nouvelle
trace. Sur internet, il est cependant fréquent qu'un utilisateur possède différentes
identités virtuelles, ou labels doublons. Les ignorer provoque une grande réduction
de la précision de l'identification. Il est ainsi question dans cet article du problème
de déduplication de labels, et l'on présente une méthode originale basée
sur l'exploration du treillis des classifieurs binaires. Chaque sous-ensemble de
labels est classifié face à son complémentaire et des contraintes rendent possible
l'identification des labels doublons en élaguant l'espace de recherche. Des expérimentations
sont menées sur des données issues du jeu vidéo STARCRAFT 2.
Les résultats sont de bonne qualité et encourageants.