Calibration des modèles d'apprentissage pour l'amélioration des détecteurs automatiques d'exemples mal-étiquetés
Résumé
Les données mal-étiquetées sont un problème répandu qui dégrade la
performance des modèles d'apprentissage automatique en contexte industriel.
Les méthodes qui permettent de détecter les exemples mal-étiquetés reposent la
plupart du temps sur l'introspection d'un modèle d'apprentissage, qui est entraîné
puis sondé pour chaque exemple afin d'obtenir un score de confiance
indiquant si l'étiquette fournie est bonne ou mauvaise. Dans cet article, nous
étudions la calibration de ce modèle sous-jacent. Nous montrons empiriquement
que l'emploi de méthodes de calibration améliore la précision et la robustesse
de la détection d'exemples mal-étiquetés, ce qui permet d'obtenir une solution
pratique et efficace pour des applications industrielles.