Comment combiner et fusionner des ensembles de données dans R - des variables

Vidéo: Joindre deux bases de données 2025

Vous pouvez combiner des données de différentes sources dans votre analyse. En règle générale, vous pouvez utiliser R pour combiner différents ensembles de données de trois façons:

En ajoutant des colonnes: Si les deux ensembles de données ont un ensemble égal de lignes et que l'ordre des lignes est identique, alors l'ajout de colonnes a du sens. Vos options pour ce faire sont des données. frame ou cbind ().
En ajoutant des lignes: Si les deux ensembles de données ont les mêmes colonnes et que vous voulez ajouter des lignes au bas, utilisez rbind ().
En combinant des données de formes différentes: La fonction merge () combine des données basées sur des colonnes communes, ainsi que des lignes communes. Dans le langage de base de données, cela est généralement appelé joindre des données.

Vous utilisez merge () pour trouver l'intersection, ainsi que l'union, de différents ensembles de données. Vous regardez également d'autres façons de travailler avec des tables de recherche, en utilisant les fonctions match () et% en%.

Parfois, vous voulez combiner des données où il n'est pas aussi simple d'ajouter simplement des colonnes ou des lignes. Il se peut que vous souhaitiez combiner des données en fonction des valeurs des clés préexistantes dans les données. C'est là que la fonction merge () est utile. Vous pouvez utiliser merge () pour combiner des données uniquement lorsque certaines conditions de correspondance sont satisfaites.

Supposons, par exemple, que vous ayez des informations sur les états d'un pays. Si un jeu de données contient des informations sur la population et qu'un autre contient des informations sur les régions, et que les deux contiennent des informations sur le nom de l'état, vous pouvez utiliser merge () pour combiner vos résultats.