Vidéo: Formation Big Data avec Apache Spark: Initiation | L’écosystème du Big Data 2024
Hadoop est plus que MapReduce et HDFS (Hadoop Distributed File System): c'est aussi une famille de projets connexes (un écosystème, vraiment) pour l'informatique distribuée et à grande échelle. traitement de l'information. La plupart (mais pas tous) de ces projets sont hébergés par Apache Software Foundation. Le tableau énumère certains de ces projets.
Nom du projet | Description |
---|---|
Ambari | Un ensemble intégré d'outils d'administration Hadoop pour
l'installation, la surveillance et la maintenance d'un cluster Hadoop. inclus sont également des outils pour ajouter ou supprimer des nœuds esclaves. |
Avro | Un cadre pour la sérialisation efficace (une sorte de
transformation) de données dans un format binaire compact |
Flume | Un service de flux de données pour le déplacement de grands volumes de log > des données dans Hadoop
HBase |
Une base de données colonnaire distribuée qui utilise HDFS pour son stockage sous-jacent | . Avec HBase, vous pouvez stocker des données dans des tables extrêmement grandes
avec des structures de colonnes variables. HCatalog |
Un service pour fournir une vue relationnelle des données stockées dans | Hadoop, y compris une approche standard pour les données tabulaires
Hive |
Un entrepôt de données distribué pour les données stockées dans HDFS; | fournit également un langage de requête basé sur SQL
(HiveQL) Hue |
Une interface d'administration Hadoop avec des outils graphiques pour | parcourir les fichiers, émettre des requêtes Hive et Pig, et développer Oozie < workflows
Mahout Une bibliothèque d'algorithmes statistiques d'apprentissage machine |
implémentés dans MapReduce et pouvant fonctionner nativement sur Hadoop | Oozie
Un outil de gestion de workflow capable de gérer la planification et > chaînage d'applications Hadoop |
Pig | Plate-forme d'analyse de très gros volumes de données
sur HDFS et d'une couche d'infrastructure constituée d'un compilateur |
qui produit des séquences de programmes MapReduce et un couche linguistique | constituée du langage de requête nommé Pig Latin
Sqoop Un outil pour déplacer efficacement de grandes quantités de données entre bases de données relationnelles et HDFS |
ZooKeeper | Une interface simple pour centraliser la coordination des services
(tels que le nommage, la configuration et la synchronisation) ed par |
applications distribuées |
L'écosystème Hadoop et ses distributions commerciales continuent d'évoluer, avec des technologies et des outils nouveaux ou améliorés qui émergent tout le temps. La figure montre les différents projets de l'écosystème Hadoop et comment ils se rapportent les uns aux autres: |