Accueil Finances personnelles Hadoop MapReduce pour Big Data - des nuls

Hadoop MapReduce pour Big Data - des nuls

Table des matières:

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2024

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2024
Anonim

Pour bien comprendre les capacités de Hadoop MapReduce, il est important de faire la différence entre MapReduce (l'algorithme) et implémentation de MapReduce. Hadoop MapReduce est une implémentation de l'algorithme développé et maintenu par le projet Apache Hadoop.

Il est utile de considérer cette implémentation comme un moteur MapReduce, car c'est exactement comme cela que cela fonctionne. Vous fournissez l'entrée (carburant), le moteur convertit l'entrée en sortie rapidement et efficacement, et vous obtenez les réponses dont vous avez besoin.

Hadoop MapReduce comprend plusieurs étapes, chacune avec un ensemble important d'opérations permettant d'atteindre votre objectif d'obtenir les réponses dont vous avez besoin à partir des données volumineuses. Le processus commence par une demande de l'utilisateur pour exécuter un programme MapReduce et continue jusqu'à ce que les résultats soient réécrits dans le système HDFS.

HDFS et MapReduce effectuent leur travail sur les nœuds d'un cluster hébergé sur des racks de serveurs de marchandises. Pour simplifier la discussion, le diagramme montre seulement deux nœuds.

Préparez le Big Data

Lorsqu'un client demande l'exécution d'un programme MapReduce, la première étape consiste à localiser et à lire le fichier d'entrée contenant les données brutes. Le format de fichier est complètement arbitraire, mais les données doivent être converties en quelque chose que le programme peut traiter. C'est la fonction de InputFormat et RecordReader. InputFormat décide de la façon dont le fichier va être fragmenté en plusieurs parties pour le traitement en utilisant une fonction appelée InputSplit.

Il attribue ensuite un RecordReader pour transformer les données brutes en vue de leur traitement par la carte. Plusieurs types de RecordReader sont fournis avec Hadoop, offrant une grande variété d'options de conversion. Cette fonctionnalité est l'une des façons qu'Hadoop gère la grande variété de types de données trouvés dans les problèmes de big data.

Lancez la grande carte de données

Vos données sont maintenant sous une forme acceptable pour la carte. Pour chaque paire d'entrées, une instance distincte de map est appelée pour traiter les données. Mais que fait-il avec la sortie traitée, et comment pouvez-vous garder la trace d'eux?

La carte a deux capacités supplémentaires pour répondre aux questions. Comme map et reduce doivent travailler ensemble pour traiter vos données, le programme doit collecter la sortie des mappeurs indépendants et la transmettre aux réducteurs. Cette tâche est effectuée par un OutputCollector. Une fonction Reporter fournit également des informations collectées à partir des tâches de carte afin que vous sachiez quand ou si les tâches de la map sont terminées.

Tout ce travail est effectué simultanément sur plusieurs nœuds du cluster Hadoop.Vous pouvez avoir des cas où la sortie de certains processus de mappage doit être accumulée avant que les réducteurs puissent commencer. Ou, certains des résultats intermédiaires peuvent devoir être traités avant la réduction.

De plus, une partie de cette sortie peut être sur un noeud différent du noeud où les réducteurs pour cette sortie spécifique seront exécutés. La collecte et le réarrangement des résultats intermédiaires sont effectués par un partitionneur et un tri. Les tâches de la carte fourniront les résultats à une partition spécifique en tant qu'entrées pour les tâches de réduction.

Une fois toutes les tâches de la map terminées, les résultats intermédiaires sont rassemblés dans la partition et un brassage se produit, triant la sortie pour un traitement optimal en réduisant.

Réduire et combiner pour les données volumineuses

Pour chaque paire de sorties, reduce est appelée pour effectuer sa tâche. De manière similaire à la carte, réduire rassemble sa sortie pendant que toutes les tâches sont en cours de traitement. Réduire ne peut pas commencer tant que tout le mappage n'est pas terminé. La sortie de réduire est également une clé et une valeur. Bien que cela soit nécessaire pour réduire son travail, il se peut que ce ne soit pas le format de sortie le plus efficace pour votre application.

Hadoop fournit une fonctionnalité OutputFormat, qui fonctionne très bien comme InputFormat. OutputFormat prend la paire clé-valeur et organise la sortie pour l'écriture sur HDFS. La dernière tâche consiste à écrire les données dans HDFS. Ceci est effectué par RecordWriter, et il fonctionne de manière similaire à RecordReader sauf en inverse. Il prend les données OutputFormat et les écrit dans HDFS sous la forme nécessaire pour les exigences du programme.

La coordination de toutes ces activités était gérée dans les versions antérieures de Hadoop par un planificateur de travaux. Ce planificateur était rudimentaire et, à mesure que le mélange des tâches changeait et grandissait, il était clair qu'une approche différente était nécessaire. La principale lacune de l'ancien planificateur était le manque de gestion des ressources. La dernière version de Hadoop a cette nouvelle capacité.

Hadoop MapReduce est le cœur du système Hadoop. Il fournit toutes les fonctionnalités dont vous avez besoin pour décomposer les gros volumes de données en blocs gérables, traiter les données en parallèle sur votre cluster distribué, puis rendre les données disponibles pour la consommation de l'utilisateur ou pour un traitement supplémentaire. Et tout cela fonctionne de manière très résiliente et tolérante aux pannes. Ce n'est que le début.

Hadoop MapReduce pour Big Data - des nuls

Le choix des éditeurs

Utilisant le mode rafale: La photographie d'action des mannequins

Utilisant le mode rafale: La photographie d'action des mannequins

Canon EOS Rebel T1i / 500D nécessite un vitesse d'obturation rapide - et un doigt de déclenchement rapide. Heureusement, le Canon EOS Digital Rebel a un mode Drive (ou Burst), qui enregistre une série continue d'images tant que vous maintenez le bouton de l'obturateur enfoncé. Si vous voulez obtenir de superbes photos d'un sujet en mouvement rapide, le mode Drive ...

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

Lorsque vous activez ce mode, le Rebel T6 recherche les visages dans le cadre. Vous devrez peut-être appuyer brièvement sur le déclencheur pour réactiver l'appareil photo avant que la fonction de détection de visage ne s'enclenche. Si un visage est détecté, l'appareil photo affiche un cadre de mise au point sur le visage, comme indiqué sur ...

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

Pour le plus automatique de la photographie automatique, permettant aux personnes ayant une expérience minimale de capturer de belles images, réglez votre sélecteur de mode Canon EOS Rebel T3 / 1100D sur l'un des deux paramètres suivants: Auto complet: Le nom de ce mode, indiqué dans la figure suivante, indique que le l'appareil photo prend le contrôle total de toutes les expositions, luminosité, flash, ...

Le choix des éditeurs

5 Bons contrôles comptables qui minimisent le vol - les nuls

5 Bons contrôles comptables qui minimisent le vol - les nuls

Voici un résumé de cinq techniques puissantes pour minimiser les problèmes surgissez lorsque vous avez des personnes ayant des niveaux de compétence et de fiabilité différents qui travaillent avec vos données QuickBooks: Comparez régulièrement les inventaires physiques avec les enregistrements de comptabilité d'inventaire. Une des choses que vous pouvez faire, à la fois pour minimiser vos pertes d'inventaire et ...

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

Si vous utilisez QuickBooks pour vous aider à mettre en place une stratégie pratique, il y a quelques choses que vous pourriez vouloir considérer. Assurez-vous de bien comprendre ces points clés: Connaissez les trois stratégies. Habituellement, une entreprise ne peut avoir qu'une stratégie commerciale sur trois: Stratégie basée sur les coûts Stratégie basée sur la différenciation Stratégie axée sur les objectifs Choisissez une stratégie. ...

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

Si vous êtes une petite entreprise configurant QuickBooks Logiciel de comptabilité 2014, vous apprécierez ces cinq conseils utiles. Minimisez le processus d'installation de QuickBooks avec ces astuces et techniques, et vous obtiendrez une conclusion rapide et réussie. Astuce # 1 de QuickBooks: Convertir en QuickBooks à compter du 1er janvier Convertir en un nouveau système de comptabilité dès le début ...

Le choix des éditeurs

Logique Puzzles pour garder votre esprit net - les mannequins

Logique Puzzles pour garder votre esprit net - les mannequins

Mettent votre casse-tête pour résoudre ces énigmes logiques! Chacun a juste une réponse. Les niveaux sont faciles, délicats, durs et traîtres, «facile» étant (bien sûr) les puzzles les plus faciles, et «traître» étant les plus difficiles. Facile: Combien de fois un mathématicien peut-il soustraire dix de 100? Facile: Déchiffrez cet indice: YYYMEN Tricky: Une femme ...

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Plan thérapeutique global qu'une personne atteinte de trouble bipolaire doit suivre et maintenir la stabilité de l'humeur est assez simple. Suivez ce plan de traitement: Prenez vos médicaments tels que prescrits, même lorsque vous vous sentez bien, et consultez votre médecin avant de faire des changements de médicaments. Établir des routines qui assurent un horaire régulier de veille-sommeil. Manque de qualité ...

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

En pleine Manie ou dépression, une personne peut ne pas penser assez clairement pour se faire soigner et peut même refuser le traitement nécessaire. Les êtres chers veulent faire ce qu'il y a de mieux, mais ils hésitent souvent, ne sachant pas quand intervenir et quoi faire. Devraient-ils appeler votre médecin ou votre thérapeute ou vous conduire?