Khiops: apprentissage automatique sans hyperparamètre
Marc Boullé,
Nicolas Voisine,
Bruno Guerraz,
Carine Hue,
Felipe Olmos,
Vladimir Popescu,
Stéphane Gouache,
Stéphane Bouget,
Alexis Bondu,
Luc Aurelien Gauthier,
Yassine Nair Benrekia,
Fabrice Clérot,
Vincent Lemaire Résumé
Khiops est un outil open source d'apprentissage automatique conçu
pour la fouille de grandes bases de données multi-tables. Khiops repose sur une
approche bayésienne unique, ayant démontré son intérêt académique à travers
plus de 20 publications sur des thèmes tels que la sélection de variables, la
classification, les arbres de décision et le co-clustering. Il propose une mesure
d'importance prédictive des variables grâce à des modèles de discrétisation pour
les données numériques et au groupement de valeurs pour les données catégorielles.
Le modèle de classification/régression proposé est un classificateur bayésien
naïf, intégrant la sélection de variables et l'apprentissage des poids. Dans
le cas de bases multi-tables, il offre une propositionalisation en construisant automatiquement
des agrégats. Khiops est adapté à l'analyse de grandes bases de
données, avec des millions d'individus, des dizaines de milliers de variables et
des centaines de millions d'enregistrements dans les tables secondaires. Il est
disponible sur de nombreux environnements, a la fois depuis une librairie python
et via une interface utilisateur.