Table des matières:
- Comment utiliser cut pour créer un nombre fixe de sous-groupes
- Vous avez maintenant un facteur qui classe les états en faible, moyen et élevé, selon le nombre de jours de gel qu'ils ont.
Vidéo: Regrouper les données Excel pour les synthétiser 2025
La fonction cut () de R crée des cases de taille égale (par défaut) dans vos données, puis classe chaque élément dans son bin approprié.
Si cela ressemble à une bouchée, ne vous inquiétez pas. Quelques exemples devraient rendre cela possible.
Comment utiliser cut pour créer un nombre fixe de sous-groupes
Pour illustrer l'utilisation de cut (), jetez un oeil à l'état du dataset intégré. x77, un tableau avec plusieurs colonnes et une ligne pour chaque état aux États-Unis:
chef (état x77) Population Revenu Analphabétisme Exp vie Meurtre HS Grad Zone de gel Alabama 3615 3624 2. 1 69. 05 15. 1 41. 3 20 50708 Alaska 365 6315 1. 5 69 31 11. 3 66. 7 152 566432 Arizona 2212 4530 1. 8 70. 55 7. 8 58. 1 15 113417 Arkansas 2110 3378 1. 9 70. 66 10. 1 39. 9 65 51945 Californie 21198 5114 1. 1 71. 71 10. 3 62. 6 20 156361 Colorado 2541 4884 0. 7 72. 06 6. 8 63. 9 166 103766
Vous voulez travailler avec la colonne appelée Frost. Pour extraire cette colonne, essayez ce qui suit:
Vous avez maintenant un nouvel objet, gel, un vecteur numérique nommé. Maintenant, utilisez cut () pour créer trois bins dans vos données: >> cut (frost, 3, include.travel = TRUE) [1] [-0. 188, 62. 6] (125, 188) [-0.188, 62.6] (62. 6, 125) [5] [-0.188, 62.6] (125, 188) (125, 188] (62. 6, 125) … [45] (125, 188) (62. 6, 125) [-0.188, 62.6] (62. 6, 125) [49] (125, 188) (125, 188] Niveaux: [-0.188, 62.6] (62.6, 125) (125.188)
Le résultat est un facteur à trois niveaux, les noms des niveaux semblent un peu compliqués, mais ils vous disent en notation mathématique ce que sont les limites de vos bins.Par exemple, le premier bin contient les états qui ont gel entre -0.188 et 62. 8 jours.
En réalité, aucun des états n'aura gelé les jours négatifs - R est mathématiquement conservateur et ajoute un peu de remplissage.
Notez que l'argument inclut La valeur par défaut de cet argument est include.local = FALSE, ce qui peut parfois amener R à ignorer la valeur la plus basse de vos données.
Comment ajouter des étiquettes pour couperLe niveau les noms ne sont pas très conviviaux, alors spécifiez quelques meilleurs noms avec le l argument abels: >> couper (gel, 3, inclure. lower = TRUE, étiquettes = c ("Low", "Med", "High")) [1] Faible Élevé Faible Élevé Faible Élevé Élevé Faible Faible Faible Faible … [45] Élevé Moyen Faible Élevé Élevé Niveau élevé: Faible Élevé Élevé
Vous avez maintenant un facteur qui classe les états en faible, moyen et élevé, selon le nombre de jours de gel qu'ils ont.
Comment utiliser le tableau pour compter le nombre d'observations
Une analyse intéressante consiste à compter le nombre d'états dans chaque parenthèse. Vous pouvez le faire avec la fonction table (), qui compte simplement le nombre d'observations dans chaque niveau de votre facteur.
