Extraction de règles d'association séquentielle à l'aide de modèles semi-paramétriques à risques proportionnels
Abstract
La recherche de liens entre objets fréquents a été popularisée par les
méthodes d'extraction de règles d'association. Dans le cas de séquences d'événements,
les méthodes de fouille permettent d'extraire des sous-séquences qui
peuvent ensuite être exprimées sous la forme de règles d'association séquentielle
entre événements. Cette utilisation de la fouille de séquences pour la recherche
de liens entre des événements pose deux problèmes. Premièrement, le
critère principal utilisé pour sélectionner les sous-séquences d'événements est
la fréquence, or les occurrences de certains événements peuvent être fortement
liées entre elles même lorsqu'elles sont peu fréquentes. Deuxièmement, les mesures
actuelles utilisées pour caractériser les règles d'association ne tiennent pas
compte du caractère temporel des données, comme l'importance du timing des
événements ou le problème des données censurées. Dans cet article, nous proposons
une méthode pour rechercher des liens significatifs entre des événements
à l'aide de modèles de durée. Les règles d'association sont construites à partir
des motifs séquentiels observés dans un ensemble de séquences. L'influence sur
le risque que l'événement « conclusion » se produise après le ou les événements
« prémisse » est estimée à l'aide d'un modèle semi-paramétrique à risques proportionnels.
Outre la présentation de la méthode, l'article propose une comparaison
avec d'autres mesures d'association