Accueil Finances personnelles Divise dans MapReduce de Hadoop - des nuls

Divise dans MapReduce de Hadoop - des nuls

Vidéo: Create and Execute MapReduce in Eclipse 2024

Vidéo: Create and Execute MapReduce in Eclipse 2024
Anonim

La façon dont HDFS a été configuré, il décompose de très gros fichiers en gros blocs (par exemple, 128 Mo), et stocke trois copies de ces blocs sur différents nœuds du cluster HDFS n'a pas conscience du contenu de ces fichiers

Dans YARN, lorsqu'un travail MapReduce est démarré, le Gestionnaire de ressources (la gestion des ressources de cluster et la planification des jobs) crée un démon Application Master pour prendre en charge le cycle de vie du travail (dans Hadoop 1, le JobTracker surveillait des tâches individuelles et gérait la planification des tâches et la gestion des ressources de cluster.)

> L'une des premières choses que fait le maître d'application est de déterminer quels blocs de fichiers sont nécessaires pour le traitement.Le maître d'application demande des détails au NameNode où sont stockées les répliques des blocs de données nécessaires. Le maître d'application envoie des requêtes à la ressource Le gestionnaire doit avoir des tâches de carte qui traitent des blocs spécifiques sur les nœuds esclaves où ils sont stockés.

La clé du traitement efficace de MapReduce est que, dans la mesure du possible, les données sont traitées

localement - sur le nœud esclave où il est stocké. Avant de voir comment les blocs de données sont traités, vous devez examiner de plus près comment Hadoop stocke les données. Dans Hadoop, les fichiers sont composés d'enregistrements individuels, qui sont finalement traités un par un par des tâches de mappage.

Par exemple, l'échantillon de données contient des informations sur les vols terminés aux États-Unis entre 1987 et 2008.

Pour télécharger l'exemple de fichier, ouvrez le navigateur Firefox à partir de la machine virtuelle et accédez à la page dataexpo.

Vous avez un fichier volumineux pour chaque année, et dans chaque fichier, chaque ligne individuelle représente un seul vol. En d'autres termes, une ligne représente un enregistrement. Maintenant, souvenez-vous que la taille de bloc pour le cluster Hadoop est de 64 Mo, ce qui signifie que les fichiers de données de lumière sont divisés en blocs de 64 Mo exactement.

Voyez-vous le problème? Si chaque tâche de carte traite tous les enregistrements d'un bloc de données spécifique, qu'advient-il de ces enregistrements qui s'étendent sur des limites de blocs? Les blocs de fichiers font exactement 64 Mo (ou ce que vous définissez comme taille de bloc), et parce que HDFS n'a aucune idée de ce qu'il y a dans les blocs de fichiers, il ne peut pas déterminer si un enregistrement peut déborder dans un autre bloc.

Pour résoudre ce problème, Hadoop utilise une représentation logique des données stockées dans les blocs de fichiers, appelées

splits d'entrée . Lorsqu'un client de travail MapReduce calcule les divisions d'entrée, il détermine où commence le premier enregistrement complet dans un bloc et où se termine le dernier enregistrement dans le bloc. Dans les cas où le dernier enregistrement d'un bloc est incomplet, le partage d'entrée inclut les informations d'emplacement pour le bloc suivant et le décalage d'octet des données nécessaires pour compléter l'enregistrement.

La figure montre cette relation entre les blocs de données et les divisions d'entrée.

Vous pouvez configurer le démon Application Master (ou JobTracker, si vous êtes dans Hadoop 1) pour calculer les divisions d'entrée au lieu du client de travail, ce qui serait plus rapide pour les travaux traitant un grand nombre de blocs de données.

Le traitement des données MapReduce est guidé par ce concept de partage d'entrée. Le nombre de divisions d'entrée calculées pour une application spécifique détermine le nombre de tâches de mappeur. Chacune de ces tâches de mappage est affectée, si possible, à un nœud esclave où la division d'entrée est stockée. Le gestionnaire de ressources (ou JobTracker, si vous êtes dans Hadoop 1) fait de son mieux pour s'assurer que les divisions d'entrée sont traitées localement.

Divise dans MapReduce de Hadoop - des nuls

Le choix des éditeurs

Utilisant le mode rafale: La photographie d'action des mannequins

Utilisant le mode rafale: La photographie d'action des mannequins

Canon EOS Rebel T1i / 500D nécessite un vitesse d'obturation rapide - et un doigt de déclenchement rapide. Heureusement, le Canon EOS Digital Rebel a un mode Drive (ou Burst), qui enregistre une série continue d'images tant que vous maintenez le bouton de l'obturateur enfoncé. Si vous voulez obtenir de superbes photos d'un sujet en mouvement rapide, le mode Drive ...

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

Lorsque vous activez ce mode, le Rebel T6 recherche les visages dans le cadre. Vous devrez peut-être appuyer brièvement sur le déclencheur pour réactiver l'appareil photo avant que la fonction de détection de visage ne s'enclenche. Si un visage est détecté, l'appareil photo affiche un cadre de mise au point sur le visage, comme indiqué sur ...

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

Pour le plus automatique de la photographie automatique, permettant aux personnes ayant une expérience minimale de capturer de belles images, réglez votre sélecteur de mode Canon EOS Rebel T3 / 1100D sur l'un des deux paramètres suivants: Auto complet: Le nom de ce mode, indiqué dans la figure suivante, indique que le l'appareil photo prend le contrôle total de toutes les expositions, luminosité, flash, ...

Le choix des éditeurs

5 Bons contrôles comptables qui minimisent le vol - les nuls

5 Bons contrôles comptables qui minimisent le vol - les nuls

Voici un résumé de cinq techniques puissantes pour minimiser les problèmes surgissez lorsque vous avez des personnes ayant des niveaux de compétence et de fiabilité différents qui travaillent avec vos données QuickBooks: Comparez régulièrement les inventaires physiques avec les enregistrements de comptabilité d'inventaire. Une des choses que vous pouvez faire, à la fois pour minimiser vos pertes d'inventaire et ...

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

Si vous utilisez QuickBooks pour vous aider à mettre en place une stratégie pratique, il y a quelques choses que vous pourriez vouloir considérer. Assurez-vous de bien comprendre ces points clés: Connaissez les trois stratégies. Habituellement, une entreprise ne peut avoir qu'une stratégie commerciale sur trois: Stratégie basée sur les coûts Stratégie basée sur la différenciation Stratégie axée sur les objectifs Choisissez une stratégie. ...

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

Si vous êtes une petite entreprise configurant QuickBooks Logiciel de comptabilité 2014, vous apprécierez ces cinq conseils utiles. Minimisez le processus d'installation de QuickBooks avec ces astuces et techniques, et vous obtiendrez une conclusion rapide et réussie. Astuce # 1 de QuickBooks: Convertir en QuickBooks à compter du 1er janvier Convertir en un nouveau système de comptabilité dès le début ...

Le choix des éditeurs

Logique Puzzles pour garder votre esprit net - les mannequins

Logique Puzzles pour garder votre esprit net - les mannequins

Mettent votre casse-tête pour résoudre ces énigmes logiques! Chacun a juste une réponse. Les niveaux sont faciles, délicats, durs et traîtres, «facile» étant (bien sûr) les puzzles les plus faciles, et «traître» étant les plus difficiles. Facile: Combien de fois un mathématicien peut-il soustraire dix de 100? Facile: Déchiffrez cet indice: YYYMEN Tricky: Une femme ...

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Plan thérapeutique global qu'une personne atteinte de trouble bipolaire doit suivre et maintenir la stabilité de l'humeur est assez simple. Suivez ce plan de traitement: Prenez vos médicaments tels que prescrits, même lorsque vous vous sentez bien, et consultez votre médecin avant de faire des changements de médicaments. Établir des routines qui assurent un horaire régulier de veille-sommeil. Manque de qualité ...

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

En pleine Manie ou dépression, une personne peut ne pas penser assez clairement pour se faire soigner et peut même refuser le traitement nécessaire. Les êtres chers veulent faire ce qu'il y a de mieux, mais ils hésitent souvent, ne sachant pas quand intervenir et quoi faire. Devraient-ils appeler votre médecin ou votre thérapeute ou vous conduire?