Accueil Finances personnelles Comment prélever des échantillons à partir de données dans R - Les mannequins

Comment prélever des échantillons à partir de données dans R - Les mannequins

Vidéo: Tutoriel 05 Bis R - Manipuler une table de données (data frame) 2025

Vidéo: Tutoriel 05 Bis R - Manipuler une table de données (data frame) 2025
Anonim

Les statisticiens doivent souvent prélever des échantillons de données et ensuite calculer des statistiques. Prendre un échantillon est facile avec R parce qu'un échantillon n'est vraiment rien de plus qu'un sous-ensemble de données. Pour ce faire, vous utilisez sample (), qui prend un vecteur en entrée; alors vous lui dites combien d'échantillons à tirer de cette liste.

Supposons que vous vouliez simuler des jets de dés et que vous vouliez obtenir dix résultats. Parce que le résultat d'un seul jet de dé est un nombre entre un et six, votre code ressemble à ceci:

>> sample (1: 6, 10, replace = TRUE) [1] 2 2 5 3 5 3 5 6 3 5
Vous dites à sample () de renvoyer dix valeurs, chacune La portée est de 1: 6. Comme chaque jet de dé est indépendant de tous les autres jets de dé, vous échantillonnez avec le remplacement. Cela signifie que vous prenez un échantillon de la liste et réinitialisez la liste à son état d'origine (en d'autres termes, vous mettez l'élément que vous venez de dessiner dans la liste).

Pour ce faire, ajoutez l'argument replace = TRUE, comme dans l'exemple.

Comme la valeur de retour de la fonction sample () est un nombre déterminé au hasard, si vous essayez cette fonction plusieurs fois, vous obtiendrez des résultats différents à chaque fois. C'est le comportement correct dans la plupart des cas, mais parfois vous pouvez vouloir obtenir des résultats reproductibles chaque fois que vous exécutez la fonction.

Habituellement, cela ne se produit que lorsque vous développez et testez votre code, ou si vous voulez être certain que quelqu'un d'autre peut tester votre code et obtenir les mêmes valeurs que vous. Dans ce cas, il est habituel de spécifier une valeur de départ appelée

.

Si vous fournissez une valeur de départ, la séquence de nombres aléatoires sera réinitialisée à un état connu. C'est parce que R ne crée pas vraiment de nombres aléatoires, mais seulement des nombres pseudo-aléatoires. Une séquence pseudo-aléatoire est un ensemble de nombres qui, à toutes fins pratiques, semblent être aléatoires mais ont été générés par un algorithme. Lorsque vous définissez une graine de départ pour un processus pseudo-aléatoire, R renvoie toujours la même séquence pseudo-aléatoire.

Mais si vous ne définissez pas la graine, R tire à partir de l'état actuel du générateur de nombres aléatoires (RNG). Au démarrage, R peut définir une graine aléatoire pour initialiser le RNG, mais chaque fois que vous l'appelez, R part de la valeur suivante dans le flux RNG. Vous pouvez lire l'aide pour? RNG pour obtenir plus de détails.

Dans R, vous utilisez l'ensemble. La fonction seed () permet de spécifier la valeur de départ de votre seed. L'argument à définir. seed () est une valeur entière. >> défini. seed (1)> sample (1: 6, 10, replace = VRAI) [1] 2 3 4 6 2 6 6 4 4 1

Si vous dessinez un autre échantillon sans placer de graine, vous obtenez un ensemble différent de résultats, comme vous pouvez l'attendre: >> échantillon (1: 6, 10, replace = TRUE) [1] 2 2 5 3 5 3 5 6 3 5

Maintenant, pour montrer cet ensemble.seed () réinitialise réellement le RNG, réessayez. Mais cette fois, définissez la graine une fois de plus: >> ensemble. seed (1)> sample (1: 6, 10, replace = TRUE) [1] 2 3 4 6 2 6 6 4 4 1

Vous obtenez exactement les mêmes résultats que la première fois que vous avez utilisé set. graine (1).

Vous pouvez utiliser sample () pour prélever des échantillons dans le diaphragme de la trame de données. Dans ce cas, vous pouvez utiliser l'argument replace = FALSE. Comme il s'agit de la valeur par défaut de l'argument replace, vous n'avez pas besoin de l'écrire explicitement: >> set. graine (123)> indice de l'index [1] 44 119 62 133 142> iris [index,] Sepal. Longueur Sepal. Largeur Pétale. Longueur Pétale. Largeur Espèces 44 5. 0 3. 5 1. 6 0. 6 setosa 119 7. 7 2. 6 6. 9 2. 3 virginica 62 5. 9 3. 0 4. 2 1. 5 versicolor 133 6. 4 2. 8 5. 6 2. 2 virginica 142 6. 9 3. 1 5. 1 2. 3 virginica
Comment prélever des échantillons à partir de données dans R - Les mannequins

Le choix des éditeurs

Comment adapter les normes journalistiques aux blogs de maman - Les nuls

Comment adapter les normes journalistiques aux blogs de maman - Les nuls

Alors que les standards journalistiques sont légèrement différents Diffusion, et les organisations en ligne, ils partagent des éléments communs de véracité, la précision, l'objectivité, l'impartialité, l'équité et la responsabilité publique (c'est une citation adaptée de Wikipedia). Surtout, les standards journalistiques établissent une séparation entre les départements qui génèrent des revenus (ventes de publicité et de sponsoring) et les départements qui développent ...

Comment accepter les commentaires des membres de la communauté en ligne - mannequins

Comment accepter les commentaires des membres de la communauté en ligne - mannequins

Comme gestionnaire de communauté en ligne, vous ne pouvez pas avoir peur pour demander des commentaires parce que vous ne voulez pas entendre de mauvaises nouvelles. La réalité est qu'il n'y a pas de mauvaises réactions. Pourtant, lorsque les commentaires négatifs viennent, parfois vous ne pouvez pas vous empêcher de le prendre personnellement. Vous passez tellement de temps à cultiver votre communauté et à promouvoir ...

Comment ajouter NoFollow Tag - mannequins

Comment ajouter NoFollow Tag - mannequins

La balise NoFollow a été créée comme un moyen de divulguer aux moteurs de recherche que, bien que votre site de blogging maman ajoute un lien vers une destination particulière, il n'approuve pas le site de destination. Initialement utilisé pour les commentaires de blog pour lutter contre les spams de commentaires, il protégeait les blogs de se connecter par inadvertance aux ...

Le choix des éditeurs

Ce qu'il faut faire et ne pas faire pour vos tableaux de bord et rapports Excel - les nuls

Ce qu'il faut faire et ne pas faire pour vos tableaux de bord et rapports Excel - les nuls

Les concepts les plus courants utilisés dans les tableaux de bord et les rapports Excel sont le concept de tendances. Une tendance est une mesure de la variance sur un intervalle défini, généralement des périodes telles que des jours, des mois ou des années. Mais construire des composants tendance pour vos tableaux de bord a quelques choses à faire et à ne pas faire. Utilisez les types de graphiques appropriés pour ...

Emplacements de confiance et macros Excel - mannequins

Emplacements de confiance et macros Excel - mannequins

Si l'idée d'un message Macro Excel à venir (même une fois) désorganise vous, configurez un emplacement de confiance pour vos fichiers. Un emplacement approuvé est un répertoire considéré comme une zone sûre dans laquelle seuls les classeurs approuvés sont placés. Un emplacement de confiance vous permet, à vous et à vos clients, d'exécuter un classeur compatible avec les ...

Transformez une colonne de données en deux dans Excel 2016 - des nuls

Transformez une colonne de données en deux dans Excel 2016 - des nuls

Dans une feuille Excel 2016 que vous devez transformer une colonne de données en deux colonnes. Dans le cas des noms, par exemple, il peut être nécessaire de transformer une colonne de noms en deux colonnes, l'une appelée prénom et l'autre nom de famille. Suivez ces étapes dans un fichier Excel ...

Le choix des éditeurs

Dix domaines à couvrir avec les fournisseurs d'entrepôts de données - les nuls

Dix domaines à couvrir avec les fournisseurs d'entrepôts de données - les nuls

Sont dix domaines que vous devriez Discutez avec n'importe quel fournisseur de produits d'entreposage de données, quelle que soit la catégorie de produit (outil d'aide à la décision, outil de middleware ou SGBDR, par exemple) que vous envisagez d'acheter. Il y a aussi une question spécifique que vous pourriez vouloir poser. Toutes ces questions sont quelque peu bizarres car elles ont peu à voir avec ...

L'avenir des entrepôts de données à l'ère du Big Data - mannequins

L'avenir des entrepôts de données à l'ère du Big Data - mannequins

Commencé à changer et à évoluer avec l'avènement du Big Data. Dans le passé, il n'était tout simplement pas rentable pour les entreprises de stocker l'énorme quantité de données provenant d'un grand nombre de systèmes d'enregistrement. Le manque d'architectures de calcul réparties rentables et pratiques a fait que les données ...

Les catégories principales de Business Intelligence - les nuls

Les catégories principales de Business Intelligence - les nuls

Au début de votre projet d'entreposage de données, ne vous concentrez pas sur le type d'outils dont vous avez besoin - pour le moment. Au lieu de cela, concentrez-vous sur les types de questions que les utilisateurs poseront concernant le contenu de l'entrepôt de données, les types de rapports qui seront exécutés et à quelles fins, et les modèles généraux de traitement qui ...