Table des matières:
Vidéo: Comment créer une courbe de Gauss sur Excel (loi normale) 2024
Les nuages de points sont particulièrement importants pour la science des données car ils peuvent montrer des modèles de données qui ne sont pas évidents. Vous pouvez voir les groupes de données avec une relative facilité et aider l'utilisateur à comprendre quand les données appartiennent à un groupe particulier. Vous pouvez également afficher les chevauchements entre les groupes et même démontrer lorsque certaines données sont en dehors de la plage attendue. Montrer ces différents types de relations dans les données est une technique avancée que vous devez connaître pour tirer le meilleur parti de MatPlotLib.
Représenter des groupes
La couleur est le troisième axe lorsque vous travaillez avec un diagramme de dispersion. L'utilisation de la couleur vous permet de mettre en surbrillance des groupes afin que les autres puissent les voir plus facilement. L'exemple suivant montre comment vous pouvez utiliser la couleur pour afficher des groupes dans un diagramme de dispersion:
importez numpy comme np
importez matplotlib. pyplot comme plt
x1 = 5 * np. au hasard. rand (50)
x2 = 5 * np. au hasard. rand (50) + 25
x3 = 30 * np. au hasard. rand (25)
x = np. concaténer ((x1, x2, x3))
y1 = 5 * np. au hasard. rand (50)
y2 = 5 * np. au hasard. rand (50) + 25
y3 = 30 * np. au hasard. rand (25)
y = np. concaténer ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. scatter (x, y, s = [50], marqueur = "D", c = couleur_array)
plt. show ()
Cet exemple utilise un tableau pour les couleurs. Cependant, le premier groupe est bleu, suivi du vert pour le second groupe. Toutes les valeurs aberrantes apparaissent en rouge.
Les tableaux de couleurs peuvent mieux faire ressortir les groupes de nuages de points.Affichage des corrélations
Dans certains cas, vous devez connaître la direction générale prise par vos données lorsque vous consultez un nuage de points. Même si vous créez une représentation claire des groupes, la direction réelle que les données prennent dans son ensemble peut ne pas être claire. Dans ce cas, vous ajoutez une ligne de tendance à la sortie. Voici un exemple d'ajout d'une ligne de tendance à un nuage de points incluant des groupes.
importez numpy comme np
importez matplotlib. pyplot comme plt
import matplotlib. pylab comme plb
x1 = 15 * np. au hasard. rand (50)
x2 = 15 * np. au hasard. rand (50) + 15
x3 = 30 * np. au hasard. rand (30)
x = np. concaténer ((x1, x2, x3))
y1 = 15 * np. au hasard. rand (50)
y2 = 15 * np. au hasard. rand (50) + 15
y3 = 30 * np. au hasard. rand (30)
y = np. concaténer ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. scatter (x, y, s = [90], marqueur = "*", c = couleur_array)
z = np. polyfit (x, y, 1)
p = np. poly1d (z)
plb. tracé (x, p (x), 'm -')
plt.show ()
Ajouter une ligne de tendance signifie que la fonction polyfit ()
NumPy
est utilisée avec les données, ce qui renvoie un vecteur de coefficients,
p
, qui minimise l'erreur des moindres carrés. La régression par les moindres carrés est une méthode pour trouver une ligne qui résume la relation entre deux variables,
x
et
y
dans ce cas, au moins dans le domaine de la variable explicative
x
. Le troisième paramètre
polyfit ()
exprime le degré d'ajustement polynomial.
La sortie vectorielle de
polyfit ()
est utilisée comme entrée pour
poly1d ()
, qui calcule les points de données réels de l'axe y. L'appel à
plot ()
crée la ligne de tendance sur le nuage de points.