Utilisation de techniques de modélisation thématiques pour la détection de nouveauté dans des flux de données textuelles.
Résumé
Avec l'avènement des réseaux sociaux et la multiplication des messages
produits au sujet des entreprises, mieux comprendre les retours clients est
devenu un enjeu primordial. Des techniques de classification automatique et de
modélisation thématique permettent d'ors déjà d'observer les principales tendances
observées dans ces données. Il est intéressant, dans une optique d'anticipation,
d'observer les thématiques émergentes et de les identifier avant qu'elles
ne prennent de l'ampleur. Afin de résoudre cette problématique, nous avons étudié
la piste de l'utilisation de modèles LDA pour détecter les documents relatifs
à ces thématiques émergentes. Nous avons testé trois systèmes sur plusieurs scénarios
d'arrivées de la nouveauté dans le flux de données. Nous montrons que
les modèles thématiques permettent de détecter cette nouveauté mais que cela
dépend du scénario envisagé.