Reframing for Non-Linear Dataset Shift
Résumé
Les modèles de classification discriminante supposent que les données de formation et de
déploiement ont les mêmes distributions d'attributs de données. Ces modèles donnent des performances
très variées lorsqu'ils sont déployés dans des conditions variées avec différentes
distributions de données. Ce phénomène est appelé Dataset Shift. Dans cet article, nous avons
fourni une méthode qui détermine d'abord s'il y a un changement significatif dans les distributions
d'attributs entre les ensembles de données d'apprentissage et de déploiement. S'il
existe un changement dans les données, la méthode proposée utilise ensuite une approche de
Hill climbing pour cartographier ce décalage, quelle que soit sa nature, c'est-à-dire (linéaire
ou non linéaire) à l'équation pour la transformation quadratique. Les résultats expérimentaux
sur trois jeux de données réels montrent de forts gains de performance obtenus par la méthode
proposée par rapport aux méthodes précédemment établies telles que le reconditionnement et
le recadrage linéaire.