Vidéo: What is Hadoop Distributed File System (HDFS)? 2024
Souvent à l'enfance de Hadoop, une grande partie de la discussion était centrée sur la représentation de NameNode d'un seul point de défaillance. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérante aux pannes, à l'exception de ce domaine clé. Sans NameNode, il n'y a pas de cluster Hadoop.
A l'aide de Hadoop 2, vous pouvez configurer HDFS de sorte qu'il existe un nœud de nom actif et un nœud de nom de secours. Le nœud de nom de secours doit se trouver sur un nœud maître dédié configuré de manière identique au nœud maître utilisé par le nœud de nom actif.
Le Standby NameNode ne reste pas inactif pendant que le NameNode gère toutes les demandes d'adresse de bloc. Le Standby NameNode, chargé de conserver l'état des emplacements de blocs et de bloquer les métadonnées en mémoire, gère les responsabilités de vérification des points de contrôle HDFS.
Active NameNode écrit les entrées de journal sur les modifications de fichiers dans la majorité des services JournalNode, qui s'exécutent sur les nœuds maîtres. ( Note: La solution haute disponibilité HDFS nécessite au moins trois nœuds maîtres, et s'il y en a plus, il ne peut y avoir qu'un nombre impair.)
En cas de défaillance, le nœud de secours lit d'abord toutes les entrées de journal terminées (où la majorité des noeuds de journal ont une entrée, en d'autres termes), pour s'assurer que le nouveau nom l'état du cluster.
Zookeeper est utilisé pour surveiller l'Active NameNode et pour gérer la logistique de basculement si l'Active NameNode devient indisponible. Les nœuds de nom actif et de secours ont des contrôleurs de basculement Zookeeper (ZFC) dédiés qui exécutent les tâches de surveillance et de basculement. En cas d'échec, la ZFC informe les instances de Zookeeper sur le cluster, qui élisent ensuite un nouveau nom de nœud actif.
Apache Zookeeper fournit des services de coordination et de configuration pour les systèmes distribués, il n'est donc pas étonnant que nous le voyons utilisé partout dans Hadoop.