Pouvoir explicatif et discriminant de variables et de tableaux de données symboliques
Abstract
Expliquer pour comprendre n'est pas discriminer pour
apprendre. Plus précisément, on s'intéresse aux liens entre pouvoir
explicatif d'une variable qualitative décrivant des classes par des
diagrammes de fréquence et pouvoir discriminant de cette variable. On
montre que la variable la plus explicative n'est pas nécessairement la plus
discriminante et on énonce huit règles explicitant ces liens. On donne
ensuite des critères permettant de sélectionner la variable à la fois la plus
explicative et la plus discriminante. On donne aussi des critères permettant
de mesurer le pouvoir explicatif et discriminant d'un tableau de données
symboliques. Dans ces critères, on introduit l'entropie ou un critère de Gini
afin d'accroître le pouvoir explicatif par des diagrammes de fréquence plus
contrastés et concentrés. On utilise ces critères pour définir des indicateurs
logiques ou numériques dont il faut optimiser les paramètres. On évoque
enfin les champs potentiels d'applications industrielles.