Arbre BIC optimal et taux d'erreur
Résumé
Nous reconsidérons dans cet article le critère BIC pour arbres d'induction
proposé dans Ritschard et Zighed (2003, 2004) et discutons deux aspects li´es
à sa portée. Le premier concerne les possibilités de le calculer. Nous montrons
comment il s'obtient à partir des statistiques du rapport vraisemblance utilisées
pour tester l'indépendance ligne-colonne de tables de contingence. Le second
point porte sur son intérêt dans une optique de classification. Nous illustrons sur
l'exemple du Titanic la relation entre le BIC et le taux d'erreur en généralisation
lorsqu'on regarde leur évolution selon la complexité de l'arbre. Nous esquissons
un plan d'expérimentation en vue de vérifier la conjecture selon laquelle le BIC
minimum assurerait en moyenne le meilleur taux d'erreur en généralisation.