Vidéo: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Comme de nombreux déploiements Hadoop existants n'utilisent pas encore Yet Another Negotiator Resource (YARN), découvrez comment Hadoop a géré son traitement des données avant les jours précédents. de Hadoop 2. Concentrez-vous sur le rôle joué par les démons maîtres JobTracker et les démons esclaves TaskTracker dans le traitement de MapReduce.
Tout l'intérêt de l'utilisation de systèmes distribués est de pouvoir déployer des ressources informatiques dans un réseau d'ordinateurs autonomes d'une manière tolérante aux pannes, facile et peu coûteuse.
Dans un système distribué tel que Hadoop, où vous avez un groupe de nœuds de calcul autonomes travaillant tous en parallèle, une grande complexité consiste à s'assurer que toutes les pièces fonctionnent ensemble. En tant que tels, ces systèmes ont généralement des couches distinctes pour gérer différentes tâches afin de prendre en charge le traitement parallèle des données.
Ce concept, connu sous le nom de séparation des préoccupations, garantit que si vous êtes, par exemple, le programmeur d'application, vous n'avez pas à vous soucier des détails spécifiques pour, disons, le basculement de cartographier les tâches. Dans Hadoop, le système se compose de ces quatre couches distinctes, comme indiqué:
-
Stockage distribué: Le système de fichiers distribués Hadoop (HDFS) est la couche de stockage dans laquelle sont stockées les données, les résultats provisoires et les jeux de résultats finaux.
-
Gestion des ressources: Outre l'espace disque, tous les nœuds esclaves du cluster Hadoop disposent de cycles de processeur, de RAM et de bande passante réseau. Un système tel que Hadoop doit être en mesure de répartir ces ressources afin que plusieurs applications et utilisateurs puissent partager le cluster de manière prévisible et paramétrable. Ce travail est effectué par le démon JobTracker.
-
Cadre de traitement: Le flux de processus MapReduce définit l'exécution de toutes les applications dans Hadoop 1. Cela commence par la phase de la carte; continue avec l'agrégation avec shuffle, trier ou fusionner; et se termine avec la phase de réduction. Dans Hadoop 1, il est également géré par le démon JobTracker, l'exécution locale étant gérée par des démons TaskTracker s'exécutant sur les nœuds esclaves.
-
Interface de programmation d'application (API): Les applications développées pour Hadoop 1 devaient être codées à l'aide de l'API MapReduce. Dans Hadoop 1, les projets Hive et Pig fournissent aux programmeurs des interfaces plus simples pour écrire des applications Hadoop, et sous leur capot, leur code est compilé jusqu'à MapReduce.
Dans le monde de Hadoop 1 (qui était le seul monde que vous aviez jusqu'à récemment), tout le traitement des données tournait autour de MapReduce.