En utilisant l'écosystème Python pour la science des données - les nuls

Vidéo: Apprentissage statistique et analyse prédictive en Python avec scikit-learn - Alexandre GRAMFORT 2025

Vous devez charger des bibliothèques pour effectuer des tâches de science des données en Python. Voici un aperçu des bibliothèques que vous pouvez utiliser pour la science des données. Ces bibliothèques peuvent effectuer plusieurs fonctions pour le data scientist.

Accès aux outils scientifiques à l'aide de SciPy

La pile SciPy contient une multitude d'autres bibliothèques que vous pouvez également télécharger séparément. Ces bibliothèques fournissent un soutien pour les mathématiques, la science et l'ingénierie. Lorsque vous obtenez SciPy, vous obtenez un ensemble de bibliothèques conçues pour fonctionner ensemble afin de créer des applications de toutes sortes. Ces bibliothèques sont

NumPy
SciPy
matplotlib
IPython
Sympy
pandas

La librairie SciPy se concentre sur les routines numériques, telles que les routines d'intégration et d'optimisation numériques. SciPy est une bibliothèque à usage général qui fournit des fonctionnalités pour plusieurs domaines problématiques. Il prend également en charge les bibliothèques spécifiques au domaine, telles que Scikit-learn, Scikit-image et statsmodels.

Effectuer des calculs scientifiques fondamentaux à l'aide de NumPy

La bibliothèque NumPy fournit les moyens d'effectuer des manipulations de tableaux à n dimensions, ce qui est essentiel pour le travail en science des données. Vous ne pouvez pas accéder facilement aux tableaux n-dimensionnels sans les fonctions NumPy qui incluent la prise en charge de l'algèbre linéaire, de la transformation de Fourier et de la génération de nombres aléatoires.

Effectuer l'analyse des données à l'aide de pandas

La bibliothèque pandas fournit un support pour les structures de données et les outils d'analyse de données. La bibliothèque est optimisée pour effectuer des tâches de science des données particulièrement rapidement et efficacement. Le principe de base de pandas est de fournir une analyse de données et un support de modélisation pour Python similaire à d'autres langages, tels que R.

Implémentation de l'apprentissage machine avec Scikit-learn

La bibliothèque Scikit-learn est l'une des nombreuses Les bibliothèques Scikit qui s'appuient sur les capacités fournies par NumPy et SciPy pour permettre aux développeurs Python d'effectuer des tâches spécifiques au domaine. Dans ce cas, la bibliothèque se concentre sur l'exploration de données et l'analyse de données. Il donne accès aux types de fonctionnalités suivants:

Classification
Régression
Clustering
Réduction de la dimensionnalité
Sélection du modèle
Prétraitement

Tracé des données avec matplotlib

La bibliothèque matplotlib vous fournit une interface de type MATLAB pour créer des présentations de données de l'analyse que vous effectuez. La bibliothèque est actuellement limitée à la sortie 2D, mais elle vous fournit toujours les moyens d'exprimer graphiquement les modèles de données que vous voyez dans les données que vous analysez.Sans cette bibliothèque, vous ne pouviez pas créer de sortie que les personnes extérieures à la communauté de la science des données pouvaient facilement comprendre.

Analyse de documents HTML à l'aide de Beautiful Soup

Le téléchargement de la bibliothèque de Beautiful Soup se trouve sur le site Web de Python. Cette bibliothèque fournit les moyens d'analyser les données HTML ou XML d'une manière compréhensible par Python. Cela vous permet de travailler avec des données arborescentes.

En plus de fournir un moyen de travailler avec des données arborescentes, Beautiful Soup prend beaucoup de travail avec les documents HTML. Par exemple, il convertit automatiquement le encodage (la manière dont les caractères sont stockés dans un document) de documents HTML de UTF-8 à Unicode. Un développeur Python devrait normalement s'inquiéter de choses comme l'encodage, mais avec Beautiful Soup, vous pouvez vous concentrer sur votre code à la place.