Accueil Finances personnelles Divise dans MapReduce de Hadoop - des nuls

Divise dans MapReduce de Hadoop - des nuls

Vidéo: Create and Execute MapReduce in Eclipse 2025

Vidéo: Create and Execute MapReduce in Eclipse 2025
Anonim

La façon dont HDFS a été configuré, il décompose de très gros fichiers en gros blocs (par exemple, 128 Mo), et stocke trois copies de ces blocs sur différents nœuds du cluster HDFS n'a pas conscience du contenu de ces fichiers

Dans YARN, lorsqu'un travail MapReduce est démarré, le Gestionnaire de ressources (la gestion des ressources de cluster et la planification des jobs) crée un démon Application Master pour prendre en charge le cycle de vie du travail (dans Hadoop 1, le JobTracker surveillait des tâches individuelles et gérait la planification des tâches et la gestion des ressources de cluster.)

> L'une des premières choses que fait le maître d'application est de déterminer quels blocs de fichiers sont nécessaires pour le traitement.Le maître d'application demande des détails au NameNode où sont stockées les répliques des blocs de données nécessaires. Le maître d'application envoie des requêtes à la ressource Le gestionnaire doit avoir des tâches de carte qui traitent des blocs spécifiques sur les nœuds esclaves où ils sont stockés.

La clé du traitement efficace de MapReduce est que, dans la mesure du possible, les données sont traitées

localement - sur le nœud esclave où il est stocké. Avant de voir comment les blocs de données sont traités, vous devez examiner de plus près comment Hadoop stocke les données. Dans Hadoop, les fichiers sont composés d'enregistrements individuels, qui sont finalement traités un par un par des tâches de mappage.

Par exemple, l'échantillon de données contient des informations sur les vols terminés aux États-Unis entre 1987 et 2008.

Pour télécharger l'exemple de fichier, ouvrez le navigateur Firefox à partir de la machine virtuelle et accédez à la page dataexpo.

Vous avez un fichier volumineux pour chaque année, et dans chaque fichier, chaque ligne individuelle représente un seul vol. En d'autres termes, une ligne représente un enregistrement. Maintenant, souvenez-vous que la taille de bloc pour le cluster Hadoop est de 64 Mo, ce qui signifie que les fichiers de données de lumière sont divisés en blocs de 64 Mo exactement.

Voyez-vous le problème? Si chaque tâche de carte traite tous les enregistrements d'un bloc de données spécifique, qu'advient-il de ces enregistrements qui s'étendent sur des limites de blocs? Les blocs de fichiers font exactement 64 Mo (ou ce que vous définissez comme taille de bloc), et parce que HDFS n'a aucune idée de ce qu'il y a dans les blocs de fichiers, il ne peut pas déterminer si un enregistrement peut déborder dans un autre bloc.

Pour résoudre ce problème, Hadoop utilise une représentation logique des données stockées dans les blocs de fichiers, appelées

splits d'entrée . Lorsqu'un client de travail MapReduce calcule les divisions d'entrée, il détermine où commence le premier enregistrement complet dans un bloc et où se termine le dernier enregistrement dans le bloc. Dans les cas où le dernier enregistrement d'un bloc est incomplet, le partage d'entrée inclut les informations d'emplacement pour le bloc suivant et le décalage d'octet des données nécessaires pour compléter l'enregistrement.

La figure montre cette relation entre les blocs de données et les divisions d'entrée.

Vous pouvez configurer le démon Application Master (ou JobTracker, si vous êtes dans Hadoop 1) pour calculer les divisions d'entrée au lieu du client de travail, ce qui serait plus rapide pour les travaux traitant un grand nombre de blocs de données.

Le traitement des données MapReduce est guidé par ce concept de partage d'entrée. Le nombre de divisions d'entrée calculées pour une application spécifique détermine le nombre de tâches de mappeur. Chacune de ces tâches de mappage est affectée, si possible, à un nœud esclave où la division d'entrée est stockée. Le gestionnaire de ressources (ou JobTracker, si vous êtes dans Hadoop 1) fait de son mieux pour s'assurer que les divisions d'entrée sont traitées localement.

Divise dans MapReduce de Hadoop - des nuls

Le choix des éditeurs

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Vous voulez pour vous assurer que vous êtes prêt quand vous allez passer le test GED Science. Lorsque vous passez le test, vous avez 90 minutes pour répondre à environ 50 questions dans les domaines scientifiques suivants: Domaine de contenu Pourcentage de questions Sciences de la vie 40% Sciences physiques (physique et chimie) 40% Terre et espace ...

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

Raisonnement mathématique section sur le GED teste les mathématiques que vous connaissez normalement à la fin de l'école secondaire. Parce que ce nouveau test est conçu pour vous préparer aux études postsecondaires et à l'emploi, il met l'accent sur les mathématiques en milieu de travail et les mathématiques scolaires. Environ 45% du test concerne un problème quantitatif ...

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Un problème courant d'écriture sur le Raisonnement GED à travers le test d'arts du langage est des phrases verbeuses. La verbosité, dans l'esprit de la bonne écriture, est, selon les mots du grand poète, quelque chose que tout le monde devrait viser à éliminer pour que la précision de nos mots transparaisse et illumine le passage. Vous avez juste souffert à travers un ...

Le choix des éditeurs

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Voici l'un des développements les plus excitants de QuarkXPress: Si vous avez déjà un document au format PDF, EPS ou Adobe Illustrator, QuarkXPress 2016 peut convertir tous ses objets en éléments natifs QuarkXPress en quelques secondes. Vous pouvez ensuite travailler avec ces éléments comme vous le pouvez avec d'autres éléments ...

Le choix des éditeurs

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Souffrent souvent de bouffées de chaleur une vague intense de chaleur les surmonte. Suivez ces conseils pour réduire les bouffées de chaleur et leurs effets: Faites de l'exercice régulièrement. Seulement une femme sur 20 qui fait de l'exercice régulièrement éprouve des bouffées de chaleur. Parmi les femmes qui ne font pas d'exercice, une personne sur quatre éprouve des bouffées de chaleur. Allumez le ventilateur de plafond ou ...

Sexe For Dummies Cheat Sheet - les nuls

Sexe For Dummies Cheat Sheet - les nuls

Que vous vous considériez comme un Don Juan, une Lady Chatterly, ou un novice sexuel , tout le monde peut tirer le meilleur parti du sexe avec un peu plus de connaissances. Vous devriez savoir que les préliminaires sont quelque chose que vous devriez prendre en considération avec chaque interaction que vous et votre partenaire avez, ainsi que la façon de garder les choses ...

Mots et significations liés à la ménopause - mannequins

Mots et significations liés à la ménopause - mannequins

Bien que ce soit loin d'être une liste complète des termes que vous pourriez entendre être utilisé lorsque la ménopause est discutée, les cinq termes essentiels suivants devraient vous aider à comprendre les bases. HRT (hormonothérapie substitutive): Un traitement pour compléter les hormones que vous perdez pendant la ménopause - généralement une combinaison d'œstrogènes, ...