Vidéo: Hiroshima, Tchernobyl, Fukushima... Les morts du nucléaire - Énergie#9 2024
les gens échantillonnent leurs données avant d'exécuter l'analyse statistique dans Hadoop est que ce type d'analyse nécessite souvent des ressources informatiques importantes. Il ne s'agit pas seulement de volumes de données: cinq facteurs principaux influencent l'échelle de l'analyse statistique:
-
Celui-ci est facile, mais nous devons le mentionner: le volume de données sur lequel vous effectuez l'analyse détermine définitivement l'échelle de l'analyse.
-
Le nombre de transformations nécessaires sur l'ensemble de données avant d'appliquer des modèles statistiques est certainement un facteur.
-
Le nombre de corrélations par paire dont vous aurez besoin pour calculer joue un rôle.
-
Le degré de complexité des calculs statistiques à appliquer est un facteur.
-
Le nombre de modèles statistiques à appliquer à votre ensemble de données joue un rôle important.
Hadoop offre un moyen de sortir de ce dilemme en fournissant une plate-forme pour effectuer des calculs de traitement massivement parallèles sur des données dans Hadoop.
Ce faisant, il est capable de renverser le flux de données analytiques; Au lieu de déplacer les données de son référentiel vers le serveur d'analyse, Hadoop fournit des analyses directement aux données. Plus spécifiquement, HDFS vous permet de stocker vos montagnes de données et d'apporter ensuite le calcul (sous la forme de tâches MapReduce) aux nœuds esclaves.
Le défi commun posé par le passage des systèmes statistiques symétriques traditionnels (SMP) à l'architecture Hadoop est la localisation des données. Sur les plates-formes SMP traditionnelles, plusieurs processeurs partagent l'accès à une seule ressource de mémoire principale.
Dans Hadoop, HDFS réplique des partitions de données sur plusieurs nœuds et machines. De plus, les algorithmes statistiques conçus pour le traitement des données en mémoire doivent maintenant s'adapter aux jeux de données qui couvrent plusieurs nœuds / racks et ne peuvent pas tenir dans un seul bloc de mémoire.