Accueil Finances personnelles Le paradigme de programmation MapReduce - les nuls

Le paradigme de programmation MapReduce - les nuls

Vidéo: MapReduce - Fonction map() en détails 2025

Vidéo: MapReduce - Fonction map() en détails 2025
Anonim

MapReduce est un paradigme de programmation conçu pour permettre le traitement distribué parallèle de grands ensembles de données, en les convertissant en ensembles de tuples, puis en combinant et en réduisant ces tuples en plus petits ensembles de tuples. En termes simples, MapReduce a été conçu pour prendre de grandes quantités de données et utiliser l'informatique répartie parallèle pour transformer les grandes données en données de petite ou de taille normale.

Le traitement distribué parallèle fait référence à un cadre puissant où les volumes massifs de données sont traités très rapidement en répartissant les tâches de traitement entre les clusters de serveurs de base. En ce qui concerne MapReduce, tuples font référence à des paires clé-valeur par lesquelles les données sont groupées, triées et traitées.

Les travaux MapReduce fonctionnent via la carte et réduisent les séquences d'opérations de traitement sur un ensemble réparti de serveurs. Dans la tâche de carte , vous déléguez vos données à des paires clé-valeur, les transformez et les filtrez. Ensuite, vous affectez les données aux nœuds pour le traitement.

Dans la tâche de réduction , vous regroupez ces données dans des ensembles de données de plus petite taille. Les données de l'étape de réduction sont transformées en un format de valeur-clé standard - où la clé agit comme identificateur d'enregistrement et la valeur est la valeur identifiée par la clé. Les nœuds de calcul des clusters traitent la carte et réduisent les tâches définies par l'utilisateur. Ce travail est effectué selon les deux étapes suivantes:

  1. Mappez les données.

    Les données entrantes doivent d'abord être déléguées dans des paires clé-valeur et divisées en fragments, qui sont ensuite affectés à des tâches de mappage. Chaque cluster informatique - un groupe de nœuds connectés entre eux et exécutant une tâche informatique partagée - est affecté à un certain nombre de tâches cartographiques, qui sont ensuite réparties entre ses nœuds.

    Lors du traitement des paires clé-valeur, des paires clé-valeur intermédiaires sont générées. Les paires clé-valeur intermédiaires sont triées par leurs valeurs de clé, et cette liste est divisée en un nouvel ensemble de fragments. Quelque soit le nombre que vous avez pour ces nouveaux fragments, ce sera le même que le nombre de tâches de réduction.

  2. Réduire les données.

    Chaque tâche de réduction est associée à un fragment. La tâche de réduction traite simplement le fragment et produit une sortie, qui est également une paire clé-valeur. Les tâches de réduction sont également réparties entre les différents nœuds du cluster. Une fois la tâche terminée, la sortie finale est écrite sur un système de fichiers.

En bref, vous pouvez réduire rapidement et efficacement le volume, la vélocité et la variété des données en utilisant map et réduire les tâches pour marquer vos données par des paires (clé, valeur), puis réduire ces paires en ensembles de données plus petits via opérations d'agrégation - opérations qui combinent plusieurs valeurs d'un ensemble de données en une seule valeur.Un diagramme de l'architecture MapReduce peut être trouvé ici.

Si vos données ne se prêtent pas à être étiquetées et traitées via les clés, les valeurs et l'agrégation, la correspondance et la réduction de généralement ne conviennent pas à vos besoins.

Si vous utilisez MapReduce dans le cadre d'une solution Hadoop, la sortie finale est écrite sur le Hadoop Distributed File System (HDFS). HDFS est un système de fichiers qui inclut des grappes de serveurs de produits de base utilisés pour stocker des données volumineuses. HDFS rend le traitement et le stockage de gros volumes de données financièrement réalisables en répartissant les tâches de stockage entre des grappes de serveurs de produits bon marché.

Le paradigme de programmation MapReduce - les nuls

Le choix des éditeurs

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Quand vous ' re sur une page LinkedIn et repérez le nom d'un membre que vous souhaitez inviter sur votre réseau, vous pouvez suivre ces étapes pour envoyer une demande de connexion à cette personne.

Comment rechercher LinkedIn par nom - mannequins

Comment rechercher LinkedIn par nom - mannequins

Lorsque vous souhaitez trouver une personne spécifique sur LinkedIn, vous pouvez recherche par nom. LinkedIn a développé des champs spéciaux de recherche de nom et de prénom pour vous aider à trouver cette personne. Lorsque vous effectuez une recherche par nom, vous devez entrer le nom de famille; entrer le prénom est facultatif. Lorsque vous êtes prêt à rechercher ...

Rechercher LinkedIn par mot-clé - dummies

Rechercher LinkedIn par mot-clé - dummies

Lorsque vous effectuez une recherche par mot-clé, LinkedIn analyse les profils de chacun pour trouver un mot correspondant. Vous pouvez mettre n'importe quel type de compétence, de mot à la mode, d'intérêt ou d'autre mot-clé qui serait présent dans le profil de quelqu'un pour voir qui est dans votre réseau. Pour effectuer une recherche par mot-clé, procédez comme suit:

Le choix des éditeurs

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Digg est un service Web dédié à facilement utilisables contenu alimenté. Digg se spécialise dans l'évaluation de la communauté des utilisateurs et le vote, ce qui permet aux utilisateurs de soumettre et de voter sur le contenu, les commentaires, les vidéos ou les images qui sont importants et ceux qui ne le sont pas. Digg est un excellent outil pour garder un œil sur ce qui est populaire et intéressant en ligne, en particulier ...

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Rien ne pimente un podcast petite intro ou musique de fond. Mais les podcasts - même s'ils sont produits et libérés sans frais pour l'auditeur - ne sont pas exemptés des restrictions de droits d'auteur. Vous devez rechercher de la musique ou des images appartenant au domaine public ou autorisées à être republiées. Soyons clairs: même si ...

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Demandant aux membres de quitter une communauté en ligne Cela va à contre-courant quand il s'agit de construire une communauté. Les gestionnaires de communauté veulent ajouter de nouveaux membres, ne pas se débarrasser d'eux. Pourtant, à certaines occasions, vous devez révoquer les adhésions parce que les membres refusent simplement de respecter les règles: Quand vous les avez prévenus ...

Le choix des éditeurs

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Un tableau croisé dynamique est un type spécial de tableau récapitulatif qui est unique à Excel. Les tableaux croisés dynamiques sont parfaits pour synthétiser des valeurs dans une table car ils font leur magie sans vous obliger à créer des formules pour effectuer les calculs. Les tableaux croisés dynamiques vous permettent également de jouer avec l'arrangement des données résumées. C'est cette capacité ...

Comment créer un diagramme de dispersion dans Excel - des nuls

Comment créer un diagramme de dispersion dans Excel - des nuls

L'une des formes de données les plus intéressantes et utiles analyse que vous pouvez effectuer dans Excel est l'analyse de régression. Dans l'analyse de régression, vous explorez la relation entre deux ensembles de valeurs, en recherchant l'association. Par exemple, vous pouvez utiliser l'analyse de régression pour déterminer si les dépenses publicitaires sont associées aux ventes, si le tabagisme est associé ...

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Pour ceux Lorsque vous devez sélectionner un sous-ensemble d'une table de données comme plage à représenter dans Excel 2013 (par opposition à la sélection d'une seule cellule dans une table de données), vous pouvez utiliser le nouvel outil Analyse rapide pour créer votre graphique. Procédez comme suit: