Accueil Finances personnelles Qu'est-ce que Hadoop? - les nuls

Qu'est-ce que Hadoop? - les nuls

Vidéo: Hadoop, c'est quoi ? 2025

Vidéo: Hadoop, c'est quoi ? 2025
Anonim

Hadoop est un outil de traitement de données open-source développé par Apache Software Foundation. Hadoop est actuellement le programme incontournable pour gérer d'énormes volumes et variétés de données, car il a été conçu pour rendre l'informatique à grande échelle plus abordable et plus flexible. Avec l'arrivée de Hadoop, le traitement de masse de données a été introduit pour significativement plus de personnes et plus d'organisations.

Hadoop peut vous offrir une excellente solution pour gérer, traiter et grouper des flux de masse de données structurées, semi-structurées et non structurées. En configurant et en déployant Hadoop, vous bénéficiez d'un moyen relativement abordable de commencer à utiliser et à extraire des informations de toutes les données de votre organisation, plutôt que de continuer à dépendre uniquement de cet ensemble de données transactionnel installé dans un ancien entrepôt de données.

Hadoop est l'un des programmes les plus populaires disponibles pour les besoins informatiques à grande échelle. Hadoop fournit une couche de mappage et de réduction capable de gérer les exigences de traitement de données de la plupart des projets de données volumineuses.

Parfois, les données deviennent trop volumineuses et rapides pour que même Hadoop puisse les gérer. Dans ces cas, les organisations se tournent plutôt vers des déploiements MapReduce plus personnalisés.

Hadoop utilise des clusters de matériel de base pour stocker des données. Le matériel de chaque cluster est connecté et ce matériel est composé de serveurs - serveurs génériques peu coûteux et peu performants qui offrent de puissantes capacités de calcul lorsqu'ils sont exécutés en parallèle sur un cluster partagé. Ces serveurs de produits sont également appelés nœuds . L'informatique marchandisée réduit considérablement les coûts liés à la manipulation et au stockage des données volumineuses.

Hadoop est composé des deux composants suivants:

  • Un framework de traitement distribué: Hadoop utilise Hadoop MapReduce comme framework de traitement distribué. Encore une fois, un cadre de traitement distribué est un cadre puissant où les tâches de traitement sont réparties entre des grappes de nœuds, de sorte que de gros volumes de données peuvent être traités très rapidement dans l'ensemble du système.

  • Un système de fichiers distribué: Hadoop utilise le système de fichiers distribués Hadoop (HDFS) comme système de fichiers distribué.

Les charges de travail des applications qui s'exécutent sur Hadoop sont réparties entre les nœuds du cluster Hadoop, puis la sortie est stockée sur le système HDFS. Le cluster Hadoop peut être composé de milliers de nœuds. Pour réduire les coûts des processus d'entrée / sortie (E / S), les travaux Hadoop MapReduce sont exécutés le plus près possible des données.

Cela signifie que les processeurs de tâches réduites sont positionnés le plus près possible des données de tâche de carte sortante qui doivent être traitées. Cette conception facilite le partage des exigences de calcul dans le traitement des données volumineuses.

Hadoop prend également en charge l'organisation hiérarchique. Certains de ses nœuds sont classés en tant que nœuds maîtres et d'autres sont classés en tant qu'esclaves. Le service maître, connu sous le nom JobTracker , est conçu pour contrôler plusieurs services esclaves. Les services esclaves (également appelés TaskTrackers ) sont distribués à chaque nœud. JobTracker contrôle les TaskTrackers et leur affecte des tâches Hadoop MapReduce.

Dans une version plus récente de Hadoop, connue sous le nom de Hadoop 2, un gestionnaire de ressources appelé Hadoop YARN a été ajouté. En ce qui concerne MapReduce dans Hadoop, YARN agit comme un système intégré qui effectue des fonctions de gestion des ressources et d'ordonnancement.

Hadoop traite les données par lot. Par conséquent, si vous travaillez avec des données de streaming en temps réel, vous ne pourrez pas utiliser Hadoop pour gérer vos problèmes de big data. Cela dit, il est très utile pour résoudre de nombreux autres types de problèmes de big data.

Qu'est-ce que Hadoop? - les nuls

Le choix des éditeurs

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Quand vous ' re sur une page LinkedIn et repérez le nom d'un membre que vous souhaitez inviter sur votre réseau, vous pouvez suivre ces étapes pour envoyer une demande de connexion à cette personne.

Comment rechercher LinkedIn par nom - mannequins

Comment rechercher LinkedIn par nom - mannequins

Lorsque vous souhaitez trouver une personne spécifique sur LinkedIn, vous pouvez recherche par nom. LinkedIn a développé des champs spéciaux de recherche de nom et de prénom pour vous aider à trouver cette personne. Lorsque vous effectuez une recherche par nom, vous devez entrer le nom de famille; entrer le prénom est facultatif. Lorsque vous êtes prêt à rechercher ...

Rechercher LinkedIn par mot-clé - dummies

Rechercher LinkedIn par mot-clé - dummies

Lorsque vous effectuez une recherche par mot-clé, LinkedIn analyse les profils de chacun pour trouver un mot correspondant. Vous pouvez mettre n'importe quel type de compétence, de mot à la mode, d'intérêt ou d'autre mot-clé qui serait présent dans le profil de quelqu'un pour voir qui est dans votre réseau. Pour effectuer une recherche par mot-clé, procédez comme suit:

Le choix des éditeurs

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Digg est un service Web dédié à facilement utilisables contenu alimenté. Digg se spécialise dans l'évaluation de la communauté des utilisateurs et le vote, ce qui permet aux utilisateurs de soumettre et de voter sur le contenu, les commentaires, les vidéos ou les images qui sont importants et ceux qui ne le sont pas. Digg est un excellent outil pour garder un œil sur ce qui est populaire et intéressant en ligne, en particulier ...

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Rien ne pimente un podcast petite intro ou musique de fond. Mais les podcasts - même s'ils sont produits et libérés sans frais pour l'auditeur - ne sont pas exemptés des restrictions de droits d'auteur. Vous devez rechercher de la musique ou des images appartenant au domaine public ou autorisées à être republiées. Soyons clairs: même si ...

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Demandant aux membres de quitter une communauté en ligne Cela va à contre-courant quand il s'agit de construire une communauté. Les gestionnaires de communauté veulent ajouter de nouveaux membres, ne pas se débarrasser d'eux. Pourtant, à certaines occasions, vous devez révoquer les adhésions parce que les membres refusent simplement de respecter les règles: Quand vous les avez prévenus ...

Le choix des éditeurs

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Un tableau croisé dynamique est un type spécial de tableau récapitulatif qui est unique à Excel. Les tableaux croisés dynamiques sont parfaits pour synthétiser des valeurs dans une table car ils font leur magie sans vous obliger à créer des formules pour effectuer les calculs. Les tableaux croisés dynamiques vous permettent également de jouer avec l'arrangement des données résumées. C'est cette capacité ...

Comment créer un diagramme de dispersion dans Excel - des nuls

Comment créer un diagramme de dispersion dans Excel - des nuls

L'une des formes de données les plus intéressantes et utiles analyse que vous pouvez effectuer dans Excel est l'analyse de régression. Dans l'analyse de régression, vous explorez la relation entre deux ensembles de valeurs, en recherchant l'association. Par exemple, vous pouvez utiliser l'analyse de régression pour déterminer si les dépenses publicitaires sont associées aux ventes, si le tabagisme est associé ...

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Pour ceux Lorsque vous devez sélectionner un sous-ensemble d'une table de données comme plage à représenter dans Excel 2013 (par opposition à la sélection d'une seule cellule dans une table de données), vous pouvez utiliser le nouvel outil Analyse rapide pour créer votre graphique. Procédez comme suit: