Accueil Finances personnelles La phase de brassage du flux applicatif MapReduce de Hadoop - les nuls

La phase de brassage du flux applicatif MapReduce de Hadoop - les nuls

Vidéo: Diffusion et osmose 2024

Vidéo: Diffusion et osmose 2024
Anonim

Après la phase Map et avant le début de la phase Reduce, un processus de transfert, appelé shuffle et trier . Ici, les données des tâches du mappeur sont préparées et déplacées vers les nœuds où les tâches du réducteur seront exécutées. Lorsque la tâche de mappeur est terminée, les résultats sont triés par clé, partitionnés s'il existe plusieurs réducteurs, puis écrits sur le disque.

Vous pouvez voir ce concept dans la figure suivante, qui montre le flux de traitement de données MapReduce et son interaction avec les composants physiques du cluster Hadoop. (Une note rapide: Les données en mémoire sont représentées par des carrés blancs, et les données stockées sur le disque sont représentées par des carrés gris.)

Pour accélérer le processus MapReduce global, les données sont immédiatement déplacées vers les nœuds des tâches du réducteur, afin d'éviter une inondation d'activité réseau lorsque la tâche finale du mappeur termine son travail. Ce transfert se produit pendant l'exécution de la tâche de mappage, car les sorties de chaque enregistrement (mémoriser) sont stockées dans la mémoire d'une tâche de réducteur en attente. (Vous pouvez configurer si cela se produit - ou ne se produit pas - et aussi le nombre de threads impliqués.)

Gardez à l'esprit que même si une tâche de réduction peut avoir la plus grande partie de la sortie de la tâche de mappeur, le traitement de la tâche de réduction ne peut pas commencer tant que toutes les tâches de mappeur ne sont pas terminées.

Pour éviter les scénarios où la performance d'un travail MapReduce est entravée par une tâche de mappage inégale qui s'exécute sur un nœud esclave médiocrement performant, l'infrastructure MapReduce utilise un concept appelé exécution spéculative .

Dans le cas où certaines tâches de mappeur sont exécutées plus lentement que ce qui est considéré comme raisonnable, le maître d'application engendrera des tâches en double (dans Hadoop 1, le JobTracker le fait). Quelle que soit la tâche qui se termine en premier - le duplicata ou l'original - ses résultats sont stockés sur le disque et l'autre tâche est supprimée. Si vous surveillez vos travaux de près et que vous vous demandez pourquoi il y a plus de tâches de mappeur en cours que vous ne le pensez, c'est une raison probable.

La sortie des tâches de mappeur n'est pas écrite dans HDFS, mais plutôt dans le disque local sur le nœud esclave où la tâche de mappeur a été exécutée. En tant que tel, il n'est pas répliqué sur le cluster Hadoop.

Outre la compression de la sortie, vous pouvez améliorer les performances en exécutant une tâche de combinaison. Cette tactique simple, illustrée ici, consiste à effectuer une réduction locale de la sortie pour des tâches de mappeur individuelles.

Dans la majorité des cas, aucune programmation supplémentaire n'est nécessaire, car vous pouvez demander au système d'utiliser la fonction de réduction. Si vous n'utilisez pas votre fonction de réduction, vous devez vous assurer que la sortie de la fonction de combinaison est identique à celle de la fonction de réduction.

C'est à MapReduce de décider si la fonction de combinateur doit être exécutée une fois, plusieurs fois ou jamais. Il est donc essentiel que le code du combinateur garantisse que les résultats finaux ne sont pas affectés par plusieurs exécutions. L'exécution du combineur peut générer des avantages en termes de performances en diminuant la quantité de données intermédiaires qui devraient sinon être transférées sur le réseau.

Cela réduit également la quantité de traitement que les tâches du réducteur doivent effectuer. Vous exécutez ici une tâche supplémentaire, il est donc possible que tout gain de performance soit négligeable ou puisse même entraîner des performances globales moins bonnes. Votre kilométrage peut varier, alors testez-le attentivement.

Une fois tous les résultats des tâches de mappage copiés dans les noeuds des tâches du réducteur, ces fichiers sont fusionnés et triés.

La phase de brassage du flux applicatif MapReduce de Hadoop - les nuls

Le choix des éditeurs

Utilisant le mode rafale: La photographie d'action des mannequins

Utilisant le mode rafale: La photographie d'action des mannequins

Canon EOS Rebel T1i / 500D nécessite un vitesse d'obturation rapide - et un doigt de déclenchement rapide. Heureusement, le Canon EOS Digital Rebel a un mode Drive (ou Burst), qui enregistre une série continue d'images tant que vous maintenez le bouton de l'obturateur enfoncé. Si vous voulez obtenir de superbes photos d'un sujet en mouvement rapide, le mode Drive ...

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

Lorsque vous activez ce mode, le Rebel T6 recherche les visages dans le cadre. Vous devrez peut-être appuyer brièvement sur le déclencheur pour réactiver l'appareil photo avant que la fonction de détection de visage ne s'enclenche. Si un visage est détecté, l'appareil photo affiche un cadre de mise au point sur le visage, comme indiqué sur ...

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

Pour le plus automatique de la photographie automatique, permettant aux personnes ayant une expérience minimale de capturer de belles images, réglez votre sélecteur de mode Canon EOS Rebel T3 / 1100D sur l'un des deux paramètres suivants: Auto complet: Le nom de ce mode, indiqué dans la figure suivante, indique que le l'appareil photo prend le contrôle total de toutes les expositions, luminosité, flash, ...

Le choix des éditeurs

5 Bons contrôles comptables qui minimisent le vol - les nuls

5 Bons contrôles comptables qui minimisent le vol - les nuls

Voici un résumé de cinq techniques puissantes pour minimiser les problèmes surgissez lorsque vous avez des personnes ayant des niveaux de compétence et de fiabilité différents qui travaillent avec vos données QuickBooks: Comparez régulièrement les inventaires physiques avec les enregistrements de comptabilité d'inventaire. Une des choses que vous pouvez faire, à la fois pour minimiser vos pertes d'inventaire et ...

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

Si vous utilisez QuickBooks pour vous aider à mettre en place une stratégie pratique, il y a quelques choses que vous pourriez vouloir considérer. Assurez-vous de bien comprendre ces points clés: Connaissez les trois stratégies. Habituellement, une entreprise ne peut avoir qu'une stratégie commerciale sur trois: Stratégie basée sur les coûts Stratégie basée sur la différenciation Stratégie axée sur les objectifs Choisissez une stratégie. ...

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

Si vous êtes une petite entreprise configurant QuickBooks Logiciel de comptabilité 2014, vous apprécierez ces cinq conseils utiles. Minimisez le processus d'installation de QuickBooks avec ces astuces et techniques, et vous obtiendrez une conclusion rapide et réussie. Astuce # 1 de QuickBooks: Convertir en QuickBooks à compter du 1er janvier Convertir en un nouveau système de comptabilité dès le début ...

Le choix des éditeurs

Logique Puzzles pour garder votre esprit net - les mannequins

Logique Puzzles pour garder votre esprit net - les mannequins

Mettent votre casse-tête pour résoudre ces énigmes logiques! Chacun a juste une réponse. Les niveaux sont faciles, délicats, durs et traîtres, «facile» étant (bien sûr) les puzzles les plus faciles, et «traître» étant les plus difficiles. Facile: Combien de fois un mathématicien peut-il soustraire dix de 100? Facile: Déchiffrez cet indice: YYYMEN Tricky: Une femme ...

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Plan thérapeutique global qu'une personne atteinte de trouble bipolaire doit suivre et maintenir la stabilité de l'humeur est assez simple. Suivez ce plan de traitement: Prenez vos médicaments tels que prescrits, même lorsque vous vous sentez bien, et consultez votre médecin avant de faire des changements de médicaments. Établir des routines qui assurent un horaire régulier de veille-sommeil. Manque de qualité ...

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

En pleine Manie ou dépression, une personne peut ne pas penser assez clairement pour se faire soigner et peut même refuser le traitement nécessaire. Les êtres chers veulent faire ce qu'il y a de mieux, mais ils hésitent souvent, ne sachant pas quand intervenir et quoi faire. Devraient-ils appeler votre médecin ou votre thérapeute ou vous conduire?