Calcul haute performance en Python pour la Science des Données: une vue d'ensemble

Pierrick Bruneau, Oscar Castro, Jean-Sébastien Sottet

In EGC 2024, vol. RNTI-E-40, pp.385-392

Résumé

Python est devenu le langage préférentiel dans les domaines de la Science des Données et de l'Apprentissage Automatique. Cependant, les data scientists ne sont pas nécessairement des programmeurs expérimentés. Bien que Python leur permette d'implémenter rapidement leurs algorithmes, pour passer à l'échelle, l'efficacité du calcul devient un souci inévitable. Ainsi, tirer le meilleur parti des capacités de processeurs multi-coeur et de Graphical Processing Units (GPU) n'est généralement pas trivial. Dans cet article, nous présentons les principaux résultats d'un récent article de synthèse, conçu comme un document de référence permettant aux praticiens en Science des Données d'apprivoiser la richesse des outils et des techniques disponibles pour le langage Python. Nous mettons un accent particulier sur la détermination des principaux traits et caractéristiques distinctives des contributions dans ce domaine. Ce document peut aider les praticiens de la Science des Données dans leur choix d'outils, et les développeurs d'outils dans l'identification de manques potentiels dans les travaux existants.

Aperçu Voir bibtex

Télécharger