Comment tracer des données résumées dans un ggplot2 dans R - dummies

Vidéo: Data Analysis in R by Dustin Tran 2025

Une fonctionnalité très pratique de ggplot2 est sa gamme de fonctions pour résumer vos données R dans le graphique. Cela signifie que vous n'avez souvent pas à pré-résumer vos données. Par exemple, la hauteur des barres dans un histogramme indique le nombre d'observations de quelque chose que vous avez dans vos données.

Le résumé statistique pour cela est de compter les observations. Les statisticiens se réfèrent à ce processus comme binning, et la stat par défaut pour geom_bar () est stat_bin ().

De manière analogue à la façon dont chaque geom a une statistique par défaut associée, chaque stat a aussi un geom par défaut.

Donc, cela soulève la question suivante: comment décidez-vous d'utiliser une géomatique ou une statistique? En théorie, peu importe que vous choisissiez d'abord le geom ou la stat. En pratique, cependant, il est souvent intuitif de commencer par un type de tracé - en d'autres termes, de spécifier une géométrie. Si vous voulez ensuite ajouter une autre couche de résumé statistique, utilisez une statistique.

Dans ce graphique, vous avez utilisé les mêmes données pour créer d'abord un nuage de points avec geom_point (), puis vous avez ajouté une ligne lisse avec stat_smooth ().

Jetez un coup d'œil à quelques exemples pratiques d'utilisation des fonctions statistiques.

Stat	Description	Default Geom
stat_bin ()	Compte le nombre d'observations dans les bins.	geom_bar ()
stat_smooth ()	Crée une ligne lisse.	geom_line ()
stat_sum ()	Ajoute des valeurs.	geom_point ()
stat_identity ()	Pas de résumé. Trace les données telles quelles.	geom_point ()
stat_boxplot ()	Résume les données d'un tracé de type boîte et moustaches.	geom_boxplot ()
Comment classer les données dans ggplot2

Vous avez déjà vu comment utiliser stat_bin () pour synthétiser vos données dans des chutiers, car il s'agit de la valeur par défaut de geom_bar (). Cela signifie que les deux lignes de code suivantes produisent des tracés identiques: >> ggplot (quakes, aes (x = profondeur)) + geom_bar (binwidth = 50)> ggplot (quakes, aes (x = profondeur)) + stat_bin (binwidth = 50)

Comment lisser les données R dans ggplot2

Le paquetage ggplot2 facilite également la création de lignes de régression dans vos données. Vous utilisez la fonction stat_smooth () pour créer ce type de ligne.

La chose intéressante à propos de stat_smooth () est qu'il utilise la régression locale par défaut. R a plusieurs fonctions qui peuvent le faire, mais ggplot2 utilise la fonction loess () pour la régression locale. Cela signifie que si vous voulez créer un modèle de régression linéaire, vous devez indiquer à stat_smooth () d'utiliser une autre fonction plus lisse. Vous faites cela avec l'argument de la méthode.

Pour illustrer l'utilisation d'un lisseur, commencez par créer un nuage de points de chômage dans l'ensemble de données longley: >> ggplot (longley, aes (x = Année, y = Employé)) + geom_point ()

Suivant, ajoutez un lisseur.C'est aussi simple que d'ajouter stat_smooth () à votre ligne de code. >> ggplot (longley, aes (x = Année, y = Employé)) + + geom_point () + stat_smooth ()

Enfin, dites à stat_smooth d'utiliser un modèle de régression linéaire. Vous faites cela en ajoutant l'argument method = "lm". >> ggplot (longley, aes (x = Année, y = Employé)) + + geom_point () + stat_smooth (méthode = "lm")

Comment indiquer à ggplot2 de laisser vos données non annulées

Parfois vous ne veut pas que ggplot2 résume vos données dans l'intrigue. Cela se produit généralement lorsque vos données sont déjà pré-résumées ou lorsque chaque ligne de votre trame de données doit être tracée séparément. Dans ce cas, vous voulez dire à ggplot2 de ne rien faire du tout, et la stat pour le faire est stat_identity ().