Accueil Finances personnelles Hadoop MapReduce pour Big Data - des nuls

Hadoop MapReduce pour Big Data - des nuls

Table des matières:

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2025

Vidéo: Palestra Virtual sobre Big Data (Hadoop, Map Reduce, HDFS) 2025
Anonim

Pour bien comprendre les capacités de Hadoop MapReduce, il est important de faire la différence entre MapReduce (l'algorithme) et implémentation de MapReduce. Hadoop MapReduce est une implémentation de l'algorithme développé et maintenu par le projet Apache Hadoop.

Il est utile de considérer cette implémentation comme un moteur MapReduce, car c'est exactement comme cela que cela fonctionne. Vous fournissez l'entrée (carburant), le moteur convertit l'entrée en sortie rapidement et efficacement, et vous obtenez les réponses dont vous avez besoin.

Hadoop MapReduce comprend plusieurs étapes, chacune avec un ensemble important d'opérations permettant d'atteindre votre objectif d'obtenir les réponses dont vous avez besoin à partir des données volumineuses. Le processus commence par une demande de l'utilisateur pour exécuter un programme MapReduce et continue jusqu'à ce que les résultats soient réécrits dans le système HDFS.

HDFS et MapReduce effectuent leur travail sur les nœuds d'un cluster hébergé sur des racks de serveurs de marchandises. Pour simplifier la discussion, le diagramme montre seulement deux nœuds.

Préparez le Big Data

Lorsqu'un client demande l'exécution d'un programme MapReduce, la première étape consiste à localiser et à lire le fichier d'entrée contenant les données brutes. Le format de fichier est complètement arbitraire, mais les données doivent être converties en quelque chose que le programme peut traiter. C'est la fonction de InputFormat et RecordReader. InputFormat décide de la façon dont le fichier va être fragmenté en plusieurs parties pour le traitement en utilisant une fonction appelée InputSplit.

Il attribue ensuite un RecordReader pour transformer les données brutes en vue de leur traitement par la carte. Plusieurs types de RecordReader sont fournis avec Hadoop, offrant une grande variété d'options de conversion. Cette fonctionnalité est l'une des façons qu'Hadoop gère la grande variété de types de données trouvés dans les problèmes de big data.

Lancez la grande carte de données

Vos données sont maintenant sous une forme acceptable pour la carte. Pour chaque paire d'entrées, une instance distincte de map est appelée pour traiter les données. Mais que fait-il avec la sortie traitée, et comment pouvez-vous garder la trace d'eux?

La carte a deux capacités supplémentaires pour répondre aux questions. Comme map et reduce doivent travailler ensemble pour traiter vos données, le programme doit collecter la sortie des mappeurs indépendants et la transmettre aux réducteurs. Cette tâche est effectuée par un OutputCollector. Une fonction Reporter fournit également des informations collectées à partir des tâches de carte afin que vous sachiez quand ou si les tâches de la map sont terminées.

Tout ce travail est effectué simultanément sur plusieurs nœuds du cluster Hadoop.Vous pouvez avoir des cas où la sortie de certains processus de mappage doit être accumulée avant que les réducteurs puissent commencer. Ou, certains des résultats intermédiaires peuvent devoir être traités avant la réduction.

De plus, une partie de cette sortie peut être sur un noeud différent du noeud où les réducteurs pour cette sortie spécifique seront exécutés. La collecte et le réarrangement des résultats intermédiaires sont effectués par un partitionneur et un tri. Les tâches de la carte fourniront les résultats à une partition spécifique en tant qu'entrées pour les tâches de réduction.

Une fois toutes les tâches de la map terminées, les résultats intermédiaires sont rassemblés dans la partition et un brassage se produit, triant la sortie pour un traitement optimal en réduisant.

Réduire et combiner pour les données volumineuses

Pour chaque paire de sorties, reduce est appelée pour effectuer sa tâche. De manière similaire à la carte, réduire rassemble sa sortie pendant que toutes les tâches sont en cours de traitement. Réduire ne peut pas commencer tant que tout le mappage n'est pas terminé. La sortie de réduire est également une clé et une valeur. Bien que cela soit nécessaire pour réduire son travail, il se peut que ce ne soit pas le format de sortie le plus efficace pour votre application.

Hadoop fournit une fonctionnalité OutputFormat, qui fonctionne très bien comme InputFormat. OutputFormat prend la paire clé-valeur et organise la sortie pour l'écriture sur HDFS. La dernière tâche consiste à écrire les données dans HDFS. Ceci est effectué par RecordWriter, et il fonctionne de manière similaire à RecordReader sauf en inverse. Il prend les données OutputFormat et les écrit dans HDFS sous la forme nécessaire pour les exigences du programme.

La coordination de toutes ces activités était gérée dans les versions antérieures de Hadoop par un planificateur de travaux. Ce planificateur était rudimentaire et, à mesure que le mélange des tâches changeait et grandissait, il était clair qu'une approche différente était nécessaire. La principale lacune de l'ancien planificateur était le manque de gestion des ressources. La dernière version de Hadoop a cette nouvelle capacité.

Hadoop MapReduce est le cœur du système Hadoop. Il fournit toutes les fonctionnalités dont vous avez besoin pour décomposer les gros volumes de données en blocs gérables, traiter les données en parallèle sur votre cluster distribué, puis rendre les données disponibles pour la consommation de l'utilisateur ou pour un traitement supplémentaire. Et tout cela fonctionne de manière très résiliente et tolérante aux pannes. Ce n'est que le début.

Hadoop MapReduce pour Big Data - des nuls

Le choix des éditeurs

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Texte d'en-tête et de pied de page standard que vous pouvez sélectionner dans les menus déroulants, vous pouvez également créer un en-tête ou un pied de page personnalisé. En plus des éléments d'en-tête ou de pied de page typiques tels que le numéro de page, le nom de fichier et la date ou l'heure, vous pouvez insérer et mettre en forme une image. En outre, vous pouvez mettre en forme ...

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Bien qu'Excel 2013 propose plusieurs en-têtes de stock et pieds de page, vous pouvez insérer des informations non disponibles ou dans un arrangement qu'Excel n'offre pas dans les en-têtes et pieds de page prêts à l'emploi. Pour ce faire, vous devez utiliser les boutons de commande qui apparaissent dans le groupe Éléments d'en-tête et de bas de page de l'onglet Conception de ...

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Dans Excel 2007, vous pouvez créer des dictionnaires personnalisés à utiliser lors de la vérification orthographique de vos feuilles de calcul. Vous utilisez le bouton Ajouter au dictionnaire dans la boîte de dialogue Orthographe pour ajouter des mots inconnus à un dictionnaire personnel. Par défaut, Excel ajoute ces mots à un fichier de dictionnaire personnalisé nommé CUSTOM. DIC, mais vous pouvez créer un nouveau custom ...

Le choix des éditeurs

Conseils pour photographier un coucher de soleil Photo - mannequins

Conseils pour photographier un coucher de soleil Photo - mannequins

Le coucher de soleil vous donne la même lumière merveilleuse que le matin , seulement vous obtenez la lumière merveilleuse à la fin de la journée, puis le soleil plonge sous l'horizon et tous les nuages ​​dans la région sont baignés de teintes vertigineuses d'orange, de rose et de pourpre. Le lever et le coucher du soleil sont les proverbes ...

Utiliser le mode Live View - les mannequins

Utiliser le mode Live View - les mannequins

Live View est une fonction extrêmement utile sur votre appareil photo numérique. Lorsque vous utilisez l'affichage en direct, le miroir de la caméra se verrouille et vous voyez la scène sur votre écran LCD plutôt que dans le viseur. Cela vous donne une toile plus grande sur laquelle composer vos images. Lorsque vous photographiez en mode Live View, vous ...

Conseils pour une prise de vue photo Sunrise - mannequins

Conseils pour une prise de vue photo Sunrise - mannequins

Le lever du soleil est un moment glorieux pour la nature et la photographie de paysage. Vous capturez des images merveilleuses juste avant que le soleil se lève et comme il jette un coup d'oeil sur l'horizon, et aussi pendant une heure ou deux après le lever du soleil. Si vous faites votre travail en tant que photographe de la bonne façon, vous ne prenez pas une image - ...

Le choix des éditeurs

Utilisez Répétition dans votre blog - mannequins

Utilisez Répétition dans votre blog - mannequins

Dans la conception, répétition signifie utiliser les mêmes éléments ou des éléments similaires dans votre blog conception. Si vous étalez tous les éléments de votre conception de blog sur une table (virtuelle), vous voulez que toutes ces pièces semblent appartenir à un ensemble plus vaste. La répétition améliore la fluidité du design de votre blog en connectant différents designs ...

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Est le trafic vous recevez qui vient de sites autres que les moteurs de recherche. Vous pourriez recevoir du trafic provenant de sites de médias sociaux comme Facebook, Twitter ou StumbleUpon. Ou vous pourriez recevoir du trafic d'autres blogs ou sites Web qui pointent vers vous. En regardant les endroits où votre trafic vient (et ne vient pas ...

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Un serveur publicitaire est un logiciel Cela vous permettra de gérer toutes vos annonces d'un endroit, même si vous avez plus d'un blog. Il affiche les annonces, les fait pivoter, les cible et fournit des rapports de performances à vos clients publicitaires. OpenX a un produit gratuit appelé OpenX OnRamp quand vous arrivez à ...