Accueil Finances personnelles Comment Suss Stats dans ggplot2 dans R - dummies

Comment Suss Stats dans ggplot2 dans R - dummies

Table des matières:

Vidéo: Statistical Programming with R by Connor Harris 2025

Vidéo: Statistical Programming with R by Connor Harris 2025
Anonim

Après les données, le mappage et les geoms, le quatrième élément d'une couche ggplot2 dans R décrit comment les données doivent être résumées. Dans ggplot2, vous faites référence à ce résumé statistique sous la forme d'une statistique .

Une fonctionnalité très pratique de ggplot2 est sa gamme de fonctions pour résumer vos données dans l'intrigue. Cela signifie que vous n'avez souvent pas à pré-résumer vos données. Par exemple, la hauteur des barres dans un histogramme indique le nombre d'observations de quelque chose que vous avez dans vos données. Le résumé statistique pour cela est de compter les observations. Les statisticiens se réfèrent à ce processus comme binning, et la stat par défaut pour geom_bar () est stat_bin ().

De manière analogue à la façon dont chaque geom a une statistique par défaut associée, chaque stat a aussi un geom par défaut.

Donc, cela soulève la question suivante: comment décidez-vous d'utiliser une géomatique ou une statistique? En théorie, peu importe que vous choisissiez d'abord le geom ou la stat. En pratique, cependant, il est souvent intuitif de commencer par un type de tracé - en d'autres termes, de spécifier une géométrie. Si vous voulez ensuite ajouter une autre couche de résumé statistique, utilisez une statistique.

geom_bar (). "Width =" 535 ">

Création d'un histogramme avec geom_bar ().

Dans ce graphique, vous avez utilisé les mêmes données pour créer un nuage de points avec geom_point (), puis vous avez ajouté une ligne lisse avec stat_smooth (Voici quelques exemples pratiques d'utilisation des fonctions statistiques

Stat Description Default Geom
stat_bin () Compte le nombre d'observations dans les bins. geom_bar ()
stat_smooth () Crée une ligne lisse geom_line ()
stat_sum () Ajoute des valeurs. geom_point ()
stat_identity () Pas de résumé. Trace les données telles quelles. geom_point ()
stat_boxplot () Résume les données pour un tracé de boîte et de moustaches geom_boxplot ()
> Binning data

Vous avez déjà vu comment utiliser stat_bin () pour récapituler vos données dans les bins, car il s'agit de la valeur par défaut de geom_bar (), ce qui signifie que les deux lignes suivantes produisent des tracés identiques: >> ggplot (tremblements, aes (x = profondeur)) + geom_bar (binwidth = 50)> ggplot (quakes, aes (x = profondeur)) + stat_bin (binwid th = 50)

Lissage des données

Le paquet ggplot2 facilite également la création de lignes de régression dans vos données. Vous utilisez la fonction stat_smooth () pour créer ce type de ligne.

La chose intéressante à propos de stat_smooth () est qu'il utilise la régression locale par défaut. R a plusieurs fonctions qui peuvent le faire, mais ggplot2 utilise la fonction loess () pour la régression locale. Cela signifie que si vous voulez créer un modèle de régression linéaire, vous devez indiquer à stat_smooth () d'utiliser une autre fonction plus lisse.Vous faites cela avec l'argument de la méthode.

Pour illustrer l'utilisation d'un lisseur, commencez par créer un nuage de points de chômage dans l'ensemble de données longley: >> p p

Ensuite, ajoutez un lissage. C'est aussi simple que d'ajouter stat_smooth () à votre ligne de code. >> p + stat_smooth ()

Votre graphique devrait ressembler à l'intrigue à gauche de l'image ci-dessous.

Parfois, ggplot2 génère des messages avec des conseils et des informations supplémentaires. Tant que vous ne voyez pas d'avertissement ou d'erreur, vous pouvez ignorer ces messages en toute sécurité. Dans ce cas, stat_smooth () vous indique que le lisseur par défaut est une méthode appelée

loess

(lissage local). Le message indique également que vous pouvez utiliser d'autres méthodes de lissage.

Enfin, utilisez stat_smooth () pour ajuster et tracer un modèle de régression linéaire. Vous faites cela en ajoutant l'argument method = "lm": >> p + stat_smooth (method = "lm")

Votre graphique devrait maintenant ressembler à l'intrigue à droite. stat_smooth (). "Width =" 535 "> Ajouter des lignes de régression avec stat_smooth ().

Ne rien faire avec l'identité

Parfois, vous ne voulez pas que ggplot2 résume vos données dans le tracé. Dans ce cas, vous voulez dire à ggplot2 de ne rien faire du tout, et la stat pour le faire est stat_identity (). Vous avez probablement remarqué que stat_identity est la statistique par défaut pour les points et les lignes.
Comment Suss Stats dans ggplot2 dans R - dummies

Le choix des éditeurs

Comment adapter les normes journalistiques aux blogs de maman - Les nuls

Comment adapter les normes journalistiques aux blogs de maman - Les nuls

Alors que les standards journalistiques sont légèrement différents Diffusion, et les organisations en ligne, ils partagent des éléments communs de véracité, la précision, l'objectivité, l'impartialité, l'équité et la responsabilité publique (c'est une citation adaptée de Wikipedia). Surtout, les standards journalistiques établissent une séparation entre les départements qui génèrent des revenus (ventes de publicité et de sponsoring) et les départements qui développent ...

Comment accepter les commentaires des membres de la communauté en ligne - mannequins

Comment accepter les commentaires des membres de la communauté en ligne - mannequins

Comme gestionnaire de communauté en ligne, vous ne pouvez pas avoir peur pour demander des commentaires parce que vous ne voulez pas entendre de mauvaises nouvelles. La réalité est qu'il n'y a pas de mauvaises réactions. Pourtant, lorsque les commentaires négatifs viennent, parfois vous ne pouvez pas vous empêcher de le prendre personnellement. Vous passez tellement de temps à cultiver votre communauté et à promouvoir ...

Comment ajouter NoFollow Tag - mannequins

Comment ajouter NoFollow Tag - mannequins

La balise NoFollow a été créée comme un moyen de divulguer aux moteurs de recherche que, bien que votre site de blogging maman ajoute un lien vers une destination particulière, il n'approuve pas le site de destination. Initialement utilisé pour les commentaires de blog pour lutter contre les spams de commentaires, il protégeait les blogs de se connecter par inadvertance aux ...

Le choix des éditeurs

Ce qu'il faut faire et ne pas faire pour vos tableaux de bord et rapports Excel - les nuls

Ce qu'il faut faire et ne pas faire pour vos tableaux de bord et rapports Excel - les nuls

Les concepts les plus courants utilisés dans les tableaux de bord et les rapports Excel sont le concept de tendances. Une tendance est une mesure de la variance sur un intervalle défini, généralement des périodes telles que des jours, des mois ou des années. Mais construire des composants tendance pour vos tableaux de bord a quelques choses à faire et à ne pas faire. Utilisez les types de graphiques appropriés pour ...

Emplacements de confiance et macros Excel - mannequins

Emplacements de confiance et macros Excel - mannequins

Si l'idée d'un message Macro Excel à venir (même une fois) désorganise vous, configurez un emplacement de confiance pour vos fichiers. Un emplacement approuvé est un répertoire considéré comme une zone sûre dans laquelle seuls les classeurs approuvés sont placés. Un emplacement de confiance vous permet, à vous et à vos clients, d'exécuter un classeur compatible avec les ...

Transformez une colonne de données en deux dans Excel 2016 - des nuls

Transformez une colonne de données en deux dans Excel 2016 - des nuls

Dans une feuille Excel 2016 que vous devez transformer une colonne de données en deux colonnes. Dans le cas des noms, par exemple, il peut être nécessaire de transformer une colonne de noms en deux colonnes, l'une appelée prénom et l'autre nom de famille. Suivez ces étapes dans un fichier Excel ...

Le choix des éditeurs

Dix domaines à couvrir avec les fournisseurs d'entrepôts de données - les nuls

Dix domaines à couvrir avec les fournisseurs d'entrepôts de données - les nuls

Sont dix domaines que vous devriez Discutez avec n'importe quel fournisseur de produits d'entreposage de données, quelle que soit la catégorie de produit (outil d'aide à la décision, outil de middleware ou SGBDR, par exemple) que vous envisagez d'acheter. Il y a aussi une question spécifique que vous pourriez vouloir poser. Toutes ces questions sont quelque peu bizarres car elles ont peu à voir avec ...

L'avenir des entrepôts de données à l'ère du Big Data - mannequins

L'avenir des entrepôts de données à l'ère du Big Data - mannequins

Commencé à changer et à évoluer avec l'avènement du Big Data. Dans le passé, il n'était tout simplement pas rentable pour les entreprises de stocker l'énorme quantité de données provenant d'un grand nombre de systèmes d'enregistrement. Le manque d'architectures de calcul réparties rentables et pratiques a fait que les données ...

Les catégories principales de Business Intelligence - les nuls

Les catégories principales de Business Intelligence - les nuls

Au début de votre projet d'entreposage de données, ne vous concentrez pas sur le type d'outils dont vous avez besoin - pour le moment. Au lieu de cela, concentrez-vous sur les types de questions que les utilisateurs poseront concernant le contenu de l'entrepôt de données, les types de rapports qui seront exécutés et à quelles fins, et les modèles généraux de traitement qui ...