Accueil Finances personnelles Hadoop MapReduce pour Big Data - des nuls

Hadoop MapReduce pour Big Data - des nuls

Table des matières:

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2025

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2025
Anonim

Pour bien comprendre les capacités de Hadoop MapReduce, il est important de faire la différence entre MapReduce (l'algorithme) et implémentation de MapReduce. Hadoop MapReduce est une implémentation de l'algorithme développé et maintenu par le projet Apache Hadoop.

Il est utile de considérer cette implémentation comme un moteur MapReduce, car c'est exactement comme cela que cela fonctionne. Vous fournissez l'entrée (carburant), le moteur convertit l'entrée en sortie rapidement et efficacement, et vous obtenez les réponses dont vous avez besoin.

Hadoop MapReduce comprend plusieurs étapes, chacune avec un ensemble important d'opérations permettant d'atteindre votre objectif d'obtenir les réponses dont vous avez besoin à partir des données volumineuses. Le processus commence par une demande de l'utilisateur pour exécuter un programme MapReduce et continue jusqu'à ce que les résultats soient réécrits dans le système HDFS.

HDFS et MapReduce effectuent leur travail sur les nœuds d'un cluster hébergé sur des racks de serveurs de marchandises. Pour simplifier la discussion, le diagramme montre seulement deux nœuds.

Préparez le Big Data

Lorsqu'un client demande l'exécution d'un programme MapReduce, la première étape consiste à localiser et à lire le fichier d'entrée contenant les données brutes. Le format de fichier est complètement arbitraire, mais les données doivent être converties en quelque chose que le programme peut traiter. C'est la fonction de InputFormat et RecordReader. InputFormat décide de la façon dont le fichier va être fragmenté en plusieurs parties pour le traitement en utilisant une fonction appelée InputSplit.

Il attribue ensuite un RecordReader pour transformer les données brutes en vue de leur traitement par la carte. Plusieurs types de RecordReader sont fournis avec Hadoop, offrant une grande variété d'options de conversion. Cette fonctionnalité est l'une des façons qu'Hadoop gère la grande variété de types de données trouvés dans les problèmes de big data.

Lancez la grande carte de données

Vos données sont maintenant sous une forme acceptable pour la carte. Pour chaque paire d'entrées, une instance distincte de map est appelée pour traiter les données. Mais que fait-il avec la sortie traitée, et comment pouvez-vous garder la trace d'eux?

La carte a deux capacités supplémentaires pour répondre aux questions. Comme map et reduce doivent travailler ensemble pour traiter vos données, le programme doit collecter la sortie des mappeurs indépendants et la transmettre aux réducteurs. Cette tâche est effectuée par un OutputCollector. Une fonction Reporter fournit également des informations collectées à partir des tâches de carte afin que vous sachiez quand ou si les tâches de la map sont terminées.

Tout ce travail est effectué simultanément sur plusieurs nœuds du cluster Hadoop.Vous pouvez avoir des cas où la sortie de certains processus de mappage doit être accumulée avant que les réducteurs puissent commencer. Ou, certains des résultats intermédiaires peuvent devoir être traités avant la réduction.

De plus, une partie de cette sortie peut être sur un noeud différent du noeud où les réducteurs pour cette sortie spécifique seront exécutés. La collecte et le réarrangement des résultats intermédiaires sont effectués par un partitionneur et un tri. Les tâches de la carte fourniront les résultats à une partition spécifique en tant qu'entrées pour les tâches de réduction.

Une fois toutes les tâches de la map terminées, les résultats intermédiaires sont rassemblés dans la partition et un brassage se produit, triant la sortie pour un traitement optimal en réduisant.

Réduire et combiner pour les données volumineuses

Pour chaque paire de sorties, reduce est appelée pour effectuer sa tâche. De manière similaire à la carte, réduire rassemble sa sortie pendant que toutes les tâches sont en cours de traitement. Réduire ne peut pas commencer tant que tout le mappage n'est pas terminé. La sortie de réduire est également une clé et une valeur. Bien que cela soit nécessaire pour réduire son travail, il se peut que ce ne soit pas le format de sortie le plus efficace pour votre application.

Hadoop fournit une fonctionnalité OutputFormat, qui fonctionne très bien comme InputFormat. OutputFormat prend la paire clé-valeur et organise la sortie pour l'écriture sur HDFS. La dernière tâche consiste à écrire les données dans HDFS. Ceci est effectué par RecordWriter, et il fonctionne de manière similaire à RecordReader sauf en inverse. Il prend les données OutputFormat et les écrit dans HDFS sous la forme nécessaire pour les exigences du programme.

La coordination de toutes ces activités était gérée dans les versions antérieures de Hadoop par un planificateur de travaux. Ce planificateur était rudimentaire et, à mesure que le mélange des tâches changeait et grandissait, il était clair qu'une approche différente était nécessaire. La principale lacune de l'ancien planificateur était le manque de gestion des ressources. La dernière version de Hadoop a cette nouvelle capacité.

Hadoop MapReduce est le cœur du système Hadoop. Il fournit toutes les fonctionnalités dont vous avez besoin pour décomposer les gros volumes de données en blocs gérables, traiter les données en parallèle sur votre cluster distribué, puis rendre les données disponibles pour la consommation de l'utilisateur ou pour un traitement supplémentaire. Et tout cela fonctionne de manière très résiliente et tolérante aux pannes. Ce n'est que le début.

Hadoop MapReduce pour Big Data - des nuls

Le choix des éditeurs

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Façons de perfectionner vos compétences scientifiques pour le test de sciences GED - mannequins

Vous voulez pour vous assurer que vous êtes prêt quand vous allez passer le test GED Science. Lorsque vous passez le test, vous avez 90 minutes pour répondre à environ 50 questions dans les domaines scientifiques suivants: Domaine de contenu Pourcentage de questions Sciences de la vie 40% Sciences physiques (physique et chimie) 40% Terre et espace ...

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

À Quoi s'attendre de la section Raisonnement mathématique du GED - Les nuls

Raisonnement mathématique section sur le GED teste les mathématiques que vous connaissez normalement à la fin de l'école secondaire. Parce que ce nouveau test est conçu pour vous préparer aux études postsecondaires et à l'emploi, il met l'accent sur les mathématiques en milieu de travail et les mathématiques scolaires. Environ 45% du test concerne un problème quantitatif ...

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Conseils pour renforcer les phrases Wordy pour le GED RLA - dummies

Un problème courant d'écriture sur le Raisonnement GED à travers le test d'arts du langage est des phrases verbeuses. La verbosité, dans l'esprit de la bonne écriture, est, selon les mots du grand poète, quelque chose que tout le monde devrait viser à éliminer pour que la précision de nos mots transparaisse et illumine le passage. Vous avez juste souffert à travers un ...

Le choix des éditeurs

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Conversion de fichiers PDF, EPS ou Adobe Illustrator en éléments natifs QuarkXPress - mannequins

Voici l'un des développements les plus excitants de QuarkXPress: Si vous avez déjà un document au format PDF, EPS ou Adobe Illustrator, QuarkXPress 2016 peut convertir tous ses objets en éléments natifs QuarkXPress en quelques secondes. Vous pouvez ensuite travailler avec ces éléments comme vous le pouvez avec d'autres éléments ...

Le choix des éditeurs

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Traitement des bouffées de chaleur pendant la ménopause - les mannequins

Souffrent souvent de bouffées de chaleur une vague intense de chaleur les surmonte. Suivez ces conseils pour réduire les bouffées de chaleur et leurs effets: Faites de l'exercice régulièrement. Seulement une femme sur 20 qui fait de l'exercice régulièrement éprouve des bouffées de chaleur. Parmi les femmes qui ne font pas d'exercice, une personne sur quatre éprouve des bouffées de chaleur. Allumez le ventilateur de plafond ou ...

Sexe For Dummies Cheat Sheet - les nuls

Sexe For Dummies Cheat Sheet - les nuls

Que vous vous considériez comme un Don Juan, une Lady Chatterly, ou un novice sexuel , tout le monde peut tirer le meilleur parti du sexe avec un peu plus de connaissances. Vous devriez savoir que les préliminaires sont quelque chose que vous devriez prendre en considération avec chaque interaction que vous et votre partenaire avez, ainsi que la façon de garder les choses ...

Mots et significations liés à la ménopause - mannequins

Mots et significations liés à la ménopause - mannequins

Bien que ce soit loin d'être une liste complète des termes que vous pourriez entendre être utilisé lorsque la ménopause est discutée, les cinq termes essentiels suivants devraient vous aider à comprendre les bases. HRT (hormonothérapie substitutive): Un traitement pour compléter les hormones que vous perdez pendant la ménopause - généralement une combinaison d'œstrogènes, ...