Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés : application à l'identification des facteurs environnementaux du cancer du Nasopharynx
Abstract
L'apprentissage de structure des réseaux bayésien à partir de données
est un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées.
Dans cet article, nous proposons une nouvelle méthode inspirée des travaux
sur la recherche de motifs fréquents corrélés pour identifier les causalités
entre les variables. L'algorithme opère en quatre temps : (1) la découverte
par niveau des motifs fréquents corrélés minimaux ; (2) la construction d'un
graphe non orienté à partir de ces motifs ; (3) la détection des V_structures et
l'orientation partielle du graphe ; (4) l'élimination des arêtes superflues par des
tests d'indépendance conditionnelle. La méthode, appliquée au réseau Asia, permet
de retrouver la structure du graphe initial. Nous l'appliquons ensuite aux
données d'une étude épidémiologique cas-témoins du cancer du nasopharynx
(NPC). L'objectif est de dresser un profil statistique type de la population étudiée
et d'apporter un éclairage utile sur les différents facteurs impliqués dans le
NPC.