RNTI

MODULAD
Reframing for Non-Linear Dataset Shift
In EGC 2018, vol. RNTI-E-34, pp.131-142
Résumé
Les modèles de classification discriminante supposent que les données de formation et de déploiement ont les mêmes distributions d'attributs de données. Ces modèles donnent des performances très variées lorsqu'ils sont déployés dans des conditions variées avec différentes distributions de données. Ce phénomène est appelé Dataset Shift. Dans cet article, nous avons fourni une méthode qui détermine d'abord s'il y a un changement significatif dans les distributions d'attributs entre les ensembles de données d'apprentissage et de déploiement. S'il existe un changement dans les données, la méthode proposée utilise ensuite une approche de Hill climbing pour cartographier ce décalage, quelle que soit sa nature, c'est-à-dire (linéaire ou non linéaire) à l'équation pour la transformation quadratique. Les résultats expérimentaux sur trois jeux de données réels montrent de forts gains de performance obtenus par la méthode proposée par rapport aux méthodes précédemment établies telles que le reconditionnement et le recadrage linéaire.