Table des matières:
- Comment utiliser la fusion pour trouver l'intersection de données
- Comment comprendre les différents types de fusion
- Comment trouver l'union (jointure externe complète)
Vidéo: Joindre deux bases de données 2025
Dans R, vous utilisez la fonction merge () pour combiner des trames de données. Cette fonction puissante tente d'identifier les colonnes ou les lignes communes entre les deux trames de données différentes.
Comment utiliser la fusion pour trouver l'intersection de données
La forme la plus simple de fusionner () trouve l'intersection entre deux ensembles de données différents. En d'autres termes, pour créer une trame de données composée des états froids et grands, utilisez la version par défaut de merge ():
fusionner (états froids, grands états) Nom Gel Zone 1 Alaska 152 566432 2 Colorado 166 103766 3 Montana 155 145587 4 Nevada 188 109889
Si vous connaissez une base de données langage tel que SQL, vous pouvez avoir deviné que merge () est très similaire à une jointure de base de données. C'est en effet le cas et les différents arguments de merge () vous permettent d'effectuer des jointures naturelles, ainsi que des jointures externes gauche, droite et complète.
La fonction merge () prend un assez grand nombre d'arguments. Ces arguments peuvent sembler assez intimidants jusqu'à ce que vous réalisiez qu'ils forment un plus petit nombre d'arguments associés:
-
x : Une trame de données.
-
y : Un bloc de données.
-
par , par. x , par. y : Les noms des colonnes communes à x et y. La valeur par défaut est d'utiliser les colonnes avec des noms communs entre les deux trames de données.
-
tous, tous. x, tous. y : Valeurs logiques spécifiant le type de fusion. La valeur par défaut est all = FALSE (ce qui signifie que seules les lignes correspondantes sont renvoyées).
Ce dernier groupe d'arguments - tous, tous. x et tout. y - mérite quelques explications. Ces arguments déterminent le type de fusion qui va se produire.
Comment comprendre les différents types de fusion
La fonction merge () permet quatre façons de combiner des données:
-
Join naturelle: Pour ne conserver que les lignes qui correspondent aux trames de données, spécifiez l'argument all = FAUX.
-
Jointure externe complète: Pour conserver toutes les lignes des deux blocs de données, spécifiez all = TRUE.
-
Joindre la jointure externe: Pour inclure toutes les lignes de votre bloc de données x et uniquement celles de y qui correspondent, spécifiez tout. x = VRAI.
-
Jointure externe droite: Pour inclure toutes les lignes de votre bloc de données y et uniquement celles de x qui correspondent, spécifiez tout. y = VRAI.
Comment trouver l'union (jointure externe complète)
En revenant aux exemples des états américains, pour effectuer une fusion complète des états froids et grands, utilisez fusion et spécifiez all = TRUE:
fusionner (cold Etats, grands états, tous = VRAI) Nom Zone de gel 1 Alaska 152 566432 2 Arizona ND 113417 3 Californie NA 156361 … 13 Texas NA 262134 14 Vermont 168 NA 15 Wyoming 173 NA
Les deux trames de données ont une variable Nom, R correspond donc aux cas en fonction des noms des états.La variable Frost provient de la trame de données froide. états, et la variable Area provient de la trame de données large. États.
Notez que ceci effectue la fusion complète et remplit les colonnes avec des valeurs NA où il n'y a pas de données correspondantes.
