Analyse discriminante sur données binaires lorsque les populations d'apprentissage et de test sont différentes
Abstract
L'analyse discriminante généralisée suppose que l'échantillon d'apprentissage
et l'échantillon test, qui contient les individus à classer, sont issus
d'une même population. Lorsque ces échantillons proviennent de populations
pour lesquelles les paramètres des variables descriptives sont différents, l'analyse
discriminante généralisée consiste à adapter la règle de classification issue
de la population d'apprentissage à la population test, en estimant un lien entre
ces deux populations. Ce papier étend les travaux existant dans un cadre gaussien
au cas des variables binaires. Afin de relever le principal défi de ce travail, qui
consiste à déterminer un lien entre deux populations binaires, nous supposons
que les variables binaires sont issues de la discrétisation de variables gaussiennes
latentes. Une méthode d'estimation et des tests sur simulations sont présentés,
puis des applications dans des contextes biologique et d'assurance illustrent ce
travail