Table des matières:
Vidéo: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Les nœuds Edge sont l'interface entre le cluster Hadoop et le réseau externe. Pour cette raison, ils sont parfois appelés nœuds passerelle . Le plus souvent, les nœuds périphériques sont utilisés pour exécuter des applications client et des outils d'administration de cluster.
Ils sont également souvent utilisés comme zones de transfert pour les données transférées dans le cluster Hadoop. En tant que tel, Oozie, Pig, Sqoop, et les outils de gestion tels que Hue et Ambari fonctionnent bien là. La figure montre les processus que vous pouvez exécuter sur les nœuds Edge.
Les nœuds Edge sont souvent ignorés dans les discussions sur l'architecture matérielle Hadoop. Cette situation est regrettable car les nœuds périphériques jouent un rôle important dans un cluster Hadoop et ils ont des exigences matérielles différentes de celles des nœuds maîtres et des nœuds esclaves.
En général, il est recommandé de minimiser les déploiements d'outils d'administration sur les nœuds maîtres et les nœuds esclaves afin de garantir que les services Hadoop critiques tels que NameNode aient le moins de concurrence possible pour les ressources.
Vous devriez éviter de placer un utilitaire de transfert de données comme Sqoop sur autre chose qu'un noeud de périphérie, car les volumes de transfert de données élevés risquent de compromettre la capacité des services Hadoop sur le même noeud à communiquer. Les messages L'échange de services Hadoop est leur force vitale, de sorte qu'une latence élevée signifie que le nœud entier peut être coupé du cluster.
La figure montre deux nœuds de bord, mais pour un grand nombre de clusters Hadoop, un seul nœud de bord suffirait. Des nœuds de périphérie supplémentaires sont généralement nécessaires lorsque le volume de données transférées dans ou hors du cluster est trop important pour qu'un seul serveur puisse les gérer.
Stockage recommandé
Pour les nœuds périphériques d'un cluster Hadoop, utilisez le stockage de classe entreprise. Pour les nœuds périphériques centrés sur les outils d'administration et les applications client en cours d'exécution, utilisez quatre disques SAS de 900 Go, ainsi qu'un contrôleur RAID HDD configuré pour RAID 1 + 0.
Les nœuds de bord orientés vers l'ingestion de données ont évidemment besoin de beaucoup plus d'espace de stockage, ce qui vous permet d'ajouter des disques au nœud de périphérie. Dans ce cas, utilisez des lecteurs SAS LFF car des capacités beaucoup plus élevées sont disponibles, par rapport aux lecteurs SAS à facteur de forme plus petit.
Processeurs recommandés
Un nœud de périphérie polyvalent serait bien servi par une configuration de processeur similaire à celle utilisée pour les nœuds esclaves - en particulier, un serveur double socket avec processeurs Ivy Bridge cadencé entre 2 et 2. 5GHz.
Mémoire recommandée
Pour la plupart des charges de travail sur les nœuds périphériques, 48 Go de RAM suffisent.
Réseau recommandé
Pour permettre la communication entre le réseau externe et le cluster Hadoop, les nœuds périphériques doivent être multi-hébergés dans le sous-réseau privé du cluster Hadoop ainsi que dans le réseau d'entreprise.
Un ordinateur à hébergement multiple est un ordinateur doté de connexions dédiées à plusieurs réseaux. Ceci est une illustration pratique de la raison pour laquelle les nœuds périphériques sont parfaitement adaptés à l'interaction avec le monde extérieur au cluster Hadoop. Garder votre cluster Hadoop dans son propre sous-réseau privé est une excellente pratique, de sorte que ces nœuds périphériques servent de fenêtre contrôlée à l'intérieur du cluster.
Pour les nœuds périphériques servant à l'exécution d'applications client ou d'outils d'administration, deux paires de connexions réseau 1 GbE liées sont recommandées: une paire pour se connecter au cluster Hadoop et une autre paire pour le réseau externe.
Les nœuds de périphérie orientés pour traiter les débits de transfert de données entrants et sortants élevés nécessitent deux (ou plus) paires de connecteurs réseau 10 GbE: une paire pour se connecter au cluster Hadoop et une autre paire pour le réseau externe ou des sources d'acquisition de données spécifiques.