Calcul haute performance en Python pour la Science des Données: une vue d'ensemble
Résumé
Python est devenu le langage préférentiel dans les domaines de la
Science des Données et de l'Apprentissage Automatique. Cependant, les data scientists ne sont pas nécessairement des programmeurs expérimentés. Bien que Python leur permette d'implémenter rapidement leurs algorithmes, pour passer à l'échelle, l'efficacité du calcul devient un souci inévitable. Ainsi, tirer le meilleur parti des capacités de processeurs multi-coeur et de Graphical Processing Units (GPU) n'est généralement pas trivial. Dans cet article, nous présentons les principaux résultats d'un récent article de synthèse, conçu comme un document de référence permettant aux praticiens en Science des Données d'apprivoiser la richesse
des outils et des techniques disponibles pour le langage Python. Nous
mettons un accent particulier sur la détermination des principaux traits et caractéristiques distinctives des contributions dans ce domaine. Ce document peut aider les praticiens de la Science des Données dans leur choix d'outils, et les développeurs d'outils dans l'identification de manques potentiels dans les travaux existants.