Accueil Finances personnelles Garder trace des blocs de données avec NameNode dans HDFS - mannequins

Garder trace des blocs de données avec NameNode dans HDFS - mannequins

Table des matières:

Vidéo: 【TUTO】Gérer ses sauvegardes sur PS4 2025

Vidéo: 【TUTO】Gérer ses sauvegardes sur PS4 2025
Anonim

Le NameNode fait office de carnet d'adresses pour Hadoop Distributed File System (HDFS) car il ne sait pas seuls les blocs constituent des fichiers individuels mais également où sont stockés chacun de ces blocs et leurs répliques. Lorsqu'un utilisateur stocke un fichier dans HDFS, le fichier est divisé en blocs de données et trois copies de ces blocs de données sont stockées dans des nœuds esclaves dans le cluster Hadoop.

C'est beaucoup de blocs de données à suivre. Comme vous pouvez vous y attendre, savoir où les corps sont enterrés fait du NameNode un composant d'importance critique dans un cluster Hadoop. Si le NameNode n'est pas disponible, les applications ne peuvent accéder à aucune donnée stockée dans HDFS.

Si vous regardez la figure suivante, vous pouvez voir le démon NameNode s'exécuter sur un serveur de noeud maître. Toutes les informations de mappage traitant des blocs de données et de leurs fichiers correspondants sont stockées dans un fichier nommé.

HDFS est un système de fichiers de journalisation, ce qui signifie que les modifications de données sont consignées dans un journal d'édition qui suit les événements depuis le dernier point de contrôle - dernière fois que le journal d'édition a été fusionné. Dans HDFS, le journal d'édition est conservé dans un fichier nommé stocké sur le NameNode.

Démarrage et fonctionnement de NameNode

Pour comprendre le fonctionnement de NameNode, il est utile de voir comment il démarre. Le but de NameNode étant d'informer les applications du nombre de blocs de données à traiter et de conserver l'emplacement exact où elles sont stockées, il a besoin de tous les emplacements de bloc et des mappages de bloc vers fichier disponibles dans RAM.

Voici les étapes que le NameNode prend. Pour charger toutes les informations dont le NameNode a besoin après son démarrage, voici ce qui se passe:

  1. Le NameNode charge le fichier en mémoire.

  2. Le NameNode charge le fichier et rejoue les modifications journalisées pour mettre à jour les métadonnées de bloc déjà en mémoire.

  3. Les démons DataNode envoient les rapports de bloc NameNode.

    Pour chaque nœud esclave, il y a un rapport de bloc qui liste tous les blocs de données qui y sont stockés et décrit la santé de chacun.

Une fois le processus de démarrage terminé, le noeud NameNode dispose d'une image complète de toutes les données stockées dans HDFS et est prêt à recevoir des demandes d'application des clients Hadoop.

Comme les fichiers de données sont ajoutés et supprimés en fonction des demandes des clients, les modifications sont écrites sur les volumes de disque du nœud esclave, les modifications sont répercutées dans les emplacements de bloc et les métadonnées stockées dans la mémoire de NameNode..

Pendant toute la durée de vie du cluster, les démons DataNode envoient les pulsations NameNode (un signal rapide) toutes les trois secondes, indiquant qu'ils sont actifs.(Cette valeur par défaut est configurable.) Toutes les six heures (à nouveau, une valeur par défaut configurable), les DataNodes envoient au NameNode un rapport de bloc décrivant les blocs de fichiers sur leurs nœuds. De cette façon, le NameNode a toujours une vue actuelle des ressources disponibles dans le cluster.

Ecriture de données

Pour créer de nouveaux fichiers dans HDFS, le processus suivant doit avoir lieu:

  1. Le client envoie une requête au NameNode pour créer un nouveau fichier.

    Le NameNode détermine le nombre de blocs nécessaires et le client obtient un bail pour créer ces nouveaux blocs de fichiers dans le cluster. Dans le cadre de ce bail, le client a une limite de temps pour terminer la tâche de création. (Cette limite de temps garantit que l'espace de stockage n'est pas utilisé par les applications client défaillantes.)

  2. Le client écrit ensuite les premières copies des blocs de fichiers sur les nœuds esclaves à l'aide du bail attribué par NameNode.

    Le NameNode gère les demandes d'écriture et détermine où les blocs de fichiers et leurs répliques doivent être écrits, en équilibrant la disponibilité et les performances. La première copie d'un bloc de fichier est écrite dans un rack, et les deuxième et troisième copies sont écrites sur un rack différent de celui de la première copie, mais dans des nœuds esclaves différents dans le même rack. Cette disposition minimise le trafic réseau tout en garantissant qu'aucun bloc de données ne se trouve sur le même point de défaillance.

  3. Lorsque chaque bloc est écrit dans HDFS, un processus spécial écrit les répliques restantes sur les autres noeuds esclaves identifiés par NameNode.

  4. Une fois que les démons DataNode ont reconnu que les répliques de blocs de fichiers ont été créées, l'application cliente ferme le fichier et notifie le NameNode, qui ferme ensuite le bail ouvert.

Lecture de données

Pour lire des fichiers à partir de HDFS, le processus suivant doit avoir lieu:

  1. Le client envoie une requête au NameNode pour un fichier.

    Le NameNode détermine quels blocs sont impliqués et choisis, en fonction de la proximité globale des blocs entre eux et avec le client, le chemin d'accès le plus efficace.

  2. Le client accède alors aux blocs en utilisant les adresses données par NameNode.

Équilibrage des données dans le cluster Hadoop

Au fil du temps, avec des combinaisons de modèles d'intégration de données inégaux (où certains nœuds esclaves peuvent recevoir davantage de données) ou de défaillances de nœuds, les données risquent de se répartir inégalement entre les racks et des nœuds esclaves dans votre cluster Hadoop.

Cette distribution inégale peut avoir un impact négatif sur les performances car la demande sur les nœuds esclaves individuels sera déséquilibrée; les nœuds avec peu de données ne seront pas entièrement utilisés; et les nœuds avec beaucoup de blocs seront surutilisés. ( Note: La surutilisation et la sous-utilisation sont basées sur l'activité du disque, pas sur CPU ou RAM.)

HDFS inclut un utilitaire d'équilibrage pour redistribuer les blocs des nœuds esclaves surutilisés aux nœuds sous-utilisés tout en conservant la politique blocs sur différents noeuds et racks esclaves. Les administrateurs Hadoop doivent vérifier régulièrement l'intégrité de HDFS et, si les données sont distribuées de manière inégale, ils doivent appeler l'utilitaire d'équilibrage.

Conception du serveur maître NameNode

En raison de sa nature critique, le serveur maître exécutant le démon NameNode nécessite des exigences matérielles nettement différentes de celles d'un nœud esclave. Plus important encore, les composants au niveau de l'entreprise doivent être utilisés pour minimiser la probabilité d'une panne. En outre, vous aurez besoin de suffisamment de RAM pour charger en mémoire toutes les métadonnées et les données de localisation de tous les blocs de données stockés dans HDFS.

Garder trace des blocs de données avec NameNode dans HDFS - mannequins

Le choix des éditeurs

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Texte d'en-tête et de pied de page standard que vous pouvez sélectionner dans les menus déroulants, vous pouvez également créer un en-tête ou un pied de page personnalisé. En plus des éléments d'en-tête ou de pied de page typiques tels que le numéro de page, le nom de fichier et la date ou l'heure, vous pouvez insérer et mettre en forme une image. En outre, vous pouvez mettre en forme ...

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Bien qu'Excel 2013 propose plusieurs en-têtes de stock et pieds de page, vous pouvez insérer des informations non disponibles ou dans un arrangement qu'Excel n'offre pas dans les en-têtes et pieds de page prêts à l'emploi. Pour ce faire, vous devez utiliser les boutons de commande qui apparaissent dans le groupe Éléments d'en-tête et de bas de page de l'onglet Conception de ...

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Dans Excel 2007, vous pouvez créer des dictionnaires personnalisés à utiliser lors de la vérification orthographique de vos feuilles de calcul. Vous utilisez le bouton Ajouter au dictionnaire dans la boîte de dialogue Orthographe pour ajouter des mots inconnus à un dictionnaire personnel. Par défaut, Excel ajoute ces mots à un fichier de dictionnaire personnalisé nommé CUSTOM. DIC, mais vous pouvez créer un nouveau custom ...

Le choix des éditeurs

Conseils pour photographier un coucher de soleil Photo - mannequins

Conseils pour photographier un coucher de soleil Photo - mannequins

Le coucher de soleil vous donne la même lumière merveilleuse que le matin , seulement vous obtenez la lumière merveilleuse à la fin de la journée, puis le soleil plonge sous l'horizon et tous les nuages ​​dans la région sont baignés de teintes vertigineuses d'orange, de rose et de pourpre. Le lever et le coucher du soleil sont les proverbes ...

Utiliser le mode Live View - les mannequins

Utiliser le mode Live View - les mannequins

Live View est une fonction extrêmement utile sur votre appareil photo numérique. Lorsque vous utilisez l'affichage en direct, le miroir de la caméra se verrouille et vous voyez la scène sur votre écran LCD plutôt que dans le viseur. Cela vous donne une toile plus grande sur laquelle composer vos images. Lorsque vous photographiez en mode Live View, vous ...

Conseils pour une prise de vue photo Sunrise - mannequins

Conseils pour une prise de vue photo Sunrise - mannequins

Le lever du soleil est un moment glorieux pour la nature et la photographie de paysage. Vous capturez des images merveilleuses juste avant que le soleil se lève et comme il jette un coup d'oeil sur l'horizon, et aussi pendant une heure ou deux après le lever du soleil. Si vous faites votre travail en tant que photographe de la bonne façon, vous ne prenez pas une image - ...

Le choix des éditeurs

Utilisez Répétition dans votre blog - mannequins

Utilisez Répétition dans votre blog - mannequins

Dans la conception, répétition signifie utiliser les mêmes éléments ou des éléments similaires dans votre blog conception. Si vous étalez tous les éléments de votre conception de blog sur une table (virtuelle), vous voulez que toutes ces pièces semblent appartenir à un ensemble plus vaste. La répétition améliore la fluidité du design de votre blog en connectant différents designs ...

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Est le trafic vous recevez qui vient de sites autres que les moteurs de recherche. Vous pourriez recevoir du trafic provenant de sites de médias sociaux comme Facebook, Twitter ou StumbleUpon. Ou vous pourriez recevoir du trafic d'autres blogs ou sites Web qui pointent vers vous. En regardant les endroits où votre trafic vient (et ne vient pas ...

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Un serveur publicitaire est un logiciel Cela vous permettra de gérer toutes vos annonces d'un endroit, même si vous avez plus d'un blog. Il affiche les annonces, les fait pivoter, les cible et fournit des rapports de performances à vos clients publicitaires. OpenX a un produit gratuit appelé OpenX OnRamp quand vous arrivez à ...