Comment Suss Stats dans ggplot2 dans R - dummies

Vidéo: Statistical Programming with R by Connor Harris 2025

Après les données, le mappage et les geoms, le quatrième élément d'une couche ggplot2 dans R décrit comment les données doivent être résumées. Dans ggplot2, vous faites référence à ce résumé statistique sous la forme d'une statistique .

Une fonctionnalité très pratique de ggplot2 est sa gamme de fonctions pour résumer vos données dans l'intrigue. Cela signifie que vous n'avez souvent pas à pré-résumer vos données. Par exemple, la hauteur des barres dans un histogramme indique le nombre d'observations de quelque chose que vous avez dans vos données. Le résumé statistique pour cela est de compter les observations. Les statisticiens se réfèrent à ce processus comme binning, et la stat par défaut pour geom_bar () est stat_bin ().

De manière analogue à la façon dont chaque geom a une statistique par défaut associée, chaque stat a aussi un geom par défaut.

Donc, cela soulève la question suivante: comment décidez-vous d'utiliser une géomatique ou une statistique? En théorie, peu importe que vous choisissiez d'abord le geom ou la stat. En pratique, cependant, il est souvent intuitif de commencer par un type de tracé - en d'autres termes, de spécifier une géométrie. Si vous voulez ensuite ajouter une autre couche de résumé statistique, utilisez une statistique.

geom_bar (). "Width =" 535 ">

Création d'un histogramme avec geom_bar ().

Dans ce graphique, vous avez utilisé les mêmes données pour créer un nuage de points avec geom_point (), puis vous avez ajouté une ligne lisse avec stat_smooth (Voici quelques exemples pratiques d'utilisation des fonctions statistiques

Stat	Description	Default Geom
stat_bin ()	Compte le nombre d'observations dans les bins.	geom_bar ()
stat_smooth ()	Crée une ligne lisse	geom_line ()
stat_sum ()	Ajoute des valeurs.	geom_point ()
stat_identity ()	Pas de résumé. Trace les données telles quelles.	geom_point ()
stat_boxplot ()	Résume les données pour un tracé de boîte et de moustaches	geom_boxplot ()

> Binning data

Vous avez déjà vu comment utiliser stat_bin () pour récapituler vos données dans les bins, car il s'agit de la valeur par défaut de geom_bar (), ce qui signifie que les deux lignes suivantes produisent des tracés identiques: >> ggplot (tremblements, aes (x = profondeur)) + geom_bar (binwidth = 50)> ggplot (quakes, aes (x = profondeur)) + stat_bin (binwid th = 50)

Lissage des données

Le paquet ggplot2 facilite également la création de lignes de régression dans vos données. Vous utilisez la fonction stat_smooth () pour créer ce type de ligne.

La chose intéressante à propos de stat_smooth () est qu'il utilise la régression locale par défaut. R a plusieurs fonctions qui peuvent le faire, mais ggplot2 utilise la fonction loess () pour la régression locale. Cela signifie que si vous voulez créer un modèle de régression linéaire, vous devez indiquer à stat_smooth () d'utiliser une autre fonction plus lisse.Vous faites cela avec l'argument de la méthode.

Pour illustrer l'utilisation d'un lisseur, commencez par créer un nuage de points de chômage dans l'ensemble de données longley: >> p p

Ensuite, ajoutez un lissage. C'est aussi simple que d'ajouter stat_smooth () à votre ligne de code. >> p + stat_smooth ()

Votre graphique devrait ressembler à l'intrigue à gauche de l'image ci-dessous.

Parfois, ggplot2 génère des messages avec des conseils et des informations supplémentaires. Tant que vous ne voyez pas d'avertissement ou d'erreur, vous pouvez ignorer ces messages en toute sécurité. Dans ce cas, stat_smooth () vous indique que le lisseur par défaut est une méthode appelée

loess

(lissage local). Le message indique également que vous pouvez utiliser d'autres méthodes de lissage.

Enfin, utilisez stat_smooth () pour ajuster et tracer un modèle de régression linéaire. Vous faites cela en ajoutant l'argument method = "lm": >> p + stat_smooth (method = "lm")

Votre graphique devrait maintenant ressembler à l'intrigue à droite. stat_smooth (). "Width =" 535 "> Ajouter des lignes de régression avec stat_smooth ().

Ne rien faire avec l'identité

Parfois, vous ne voulez pas que ggplot2 résume vos données dans le tracé. Dans ce cas, vous voulez dire à ggplot2 de ne rien faire du tout, et la stat pour le faire est stat_identity (). Vous avez probablement remarqué que stat_identity est la statistique par défaut pour les points et les lignes.