Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables
Abstract
Le prétraitement des variables numériques dans le contexte de la
fouille de données multi-tables diffère de celui des données classiques individuvariable.
La difficulté vient principalement des relations un-à-plusieurs où les
individus de la table cible sont potentiellement associés à plusieurs enregistrements
dans des tables secondaires. Dans cet article, nous décrivons une méthode
de discrétisation des variables numériques situées dans des tables secondaires.
Nous proposons un critère qui évalue les discrétisations candidates pour ce type
de variables. Nous décrivons un algorithme d'optimisation simple qui permet
d'obtenir la meilleure discrétisation en intervalles de fréquence égale pour le
critère proposé. L'idée est de projeter dans la table cible l'information contenue
dans chaque variable secondaire à l'aide d'un vecteur d'attributs (un attribut
par intervalle de discrétisation). Chaque attribut représente le nombre de valeurs
de la variable secondaire appartenant à l'intervalle correspondant. Ces attributs
d'effectifs sont conjointement partitionnés à l'aide de modèles en grille de données
afin d'obtenir une meilleure séparation des valeurs de la classe. Des expérimentations
sur des jeux de données réelles et artificielles révèlent que l'approche
de discrétisation permet de découvrir des variables secondaires pertinentes.