Analyse de dissimilarités par arbre d'induction
Résumé
Dans cet article1, nous considérons des objets pour lesquels nous dis-
posons d'une matrice des dissimilarités et nous nous intéressons à leurs liens
avec des attributs. Nous nous centrons sur l'analyse de séquences d'états pour
lesquelles les dissimilarités sont données par la distance d'édition. Toutefois, les
méthodes développées peuvent être étendues à tout type d'objets et de mesure
de dissimilarités. Nous présentons dans un premier temps une généralisation de
l'analyse de variance (ANOVA) pour évaluer le lien entre des objets non mesu-
rables (p. ex. des séquences) avec une variable catégorielle. La clef de l'approche
est d'exprimer la variabilité en termes des seules dissimilarités ce qui nous per-
met d'identifier les facteurs qui réduisent le plus la variabilité. Nous présentons
un test statistique général qui peut en être déduit et introduisons une méthode
originale de visualisation des résultats pour les séquences d'états. Nous présen-
tons ensuite une généralisation de cette analyse au cas de facteurs multiples et en
discutons les apports et les limites, notamment en terme d'interprétation. Fina-
lement, nous introduisons une nouvelle méthode de type arbre d'induction qui
utilise le test précédent comme critère d'éclatement. La portée des méthodes
présentées est illustrée à l'aide d'une analyse des facteurs discriminant le plus
les trajectoires occupationnelles .