Prédictions contrôlées en apprentissage automatique
Abstract
Les récentes avancées obtenues en apprentissage automatique rendent possible la conception d'algorithmes efficients de prédiction pour des ensembles de données à grand nombre de paramètres. Cet article décrit une nouvelle méthode pour contrôler les prédictions élaborées par de nombreux algorithmes, incluant les machines à vecteurs support, la régression ridge à noyau, les plus proches voisins par noyau et bien d'autres méthodes correspondant à l'actuel état de l'art. Les prédictions contrôlées pour les étiquettes de nouveaux objets comportent des mesures quantitatives de leur précision et de leur fiabilité. Nous prouvons que ces mesures sont valides sous hypothèse de randomisation, traditionnelle en apprentissage automatique : les objets et leurs étiquettes sont supposés indépendamment générés par la même distribution de probabilité. En particulier, il devient possible de contrôler (aux fluctuations statistiques près) le nombre de prédictions erronées en choisissant un niveau de confiance approprié. La validité étant assurée, l'objectif restant pour les prédictions contrôlées est l'efficience : prendre au mieux les caractéristiques des nouveaux objets ainsi que l'information disponible pour produire des prédictions aussi précises que possible. Ceci peut être obtenu avec succès en utilisant toute la puissance des méthodes modernes d'apprentissage automatique