Les options de commande Hadoop dfsadmin - les nuls
Les outils dfsadmin sont un ensemble spécifique d'outils conçus pour vous aider à extraire des informations à propos de votre système Hadoop Distributed File (HDFS). En prime, vous pouvez également les utiliser pour effectuer des opérations d'administration sur HDFS. Option Ce qu'il fait -report Renvoie les informations et les statistiques de base du système de fichiers. -safemode enter | ...
Prenez HBase pour un test - Ici, vous trouverez des informations sur le téléchargement et le déploiement de HBase en mode standalone
. Il est incroyablement simple d'installer HBase et de commencer à utiliser la technologie. Gardez simplement à l'esprit que HBase est généralement déployé sur un cluster de serveurs de base, bien que vous puissiez également déployer facilement HBase dans une configuration autonome, pour l'apprentissage ou la démonstration ...
L'option de prétraitement des données hybrides dans Hadoop - des mannequins
En plus d'avoir à stocker de plus gros volumes de données froides, Une pression que vous voyez dans les entrepôts de données traditionnels est que des quantités croissantes de ressources de traitement sont utilisées pour les charges de travail de transformation (ELT). L'idée d'utiliser Hadoop comme moteur de prétraitement pour gérer la transformation des données permet de libérer de précieux cycles de traitement, ce qui permet de ...
L'architecture de Apache Hive - les nuls
En examinant les éléments d'Apache Hive montrés, vous pouvez voir en bas Hive se trouve au sommet des systèmes Hadoop Distributed File System (HDFS) et MapReduce. Dans le cas de MapReduce, les figures représentent les composants Hadoop 1 et Hadoop 2. Avec Hadoop 1, les requêtes Hive sont converties en code MapReduce ...
La zone d'atterrissage basée sur Hadoop - les nuls
Lorsque vous essayez de comprendre à quoi pourrait ressembler un environnement analytique l'avenir, vous trébuchez à travers le modèle de la zone d'atterrissage Hadoop à maintes reprises. En fait, ce n'est même plus une discussion prospective car la zone d'atterrissage est devenue la façon dont les entreprises tournées vers l'avenir tentent de sauver l'informatique ...
L'analyse statistique des limites d'échantillonnage dans Hadoop - mannequins
Est loin d'être une nouveauté, Il est certainement vieux que cela dépend du traitement de grandes quantités de données pour obtenir de nouvelles informations. Cependant, la quantité de données traditionnellement traitées par ces systèmes se situait entre 10 et 100 (ou centaines de) gigaoctets - ...
Le HBase MasterServer - les nuls
Démarrant une discussion de l'architecture HBase (Hadoop Database) en décrivant RegionServers au lieu du MasterServer peuvent vous surprendre . Le terme RegionServer semblerait impliquer que cela dépend (et est secondaire) du MasterServer et que vous devriez donc d'abord discuter du MasterServer. Comme le dit la vieille chanson, "ce n'est pas nécessairement le cas. "Le ...
Les clés pour adopter Hadoop - mannequins
Dans tout projet Hadoop sérieux, vous devriez commencer par faire équipe avec l'entreprise les dirigeants des vice-présidents pour aider à résoudre les problèmes de votre entreprise - ces problèmes (réels ou perçus) qui occupent toute l'attention de tous. Les entreprises veulent voir la valeur de leurs investissements informatiques, et Hadoop peut ...
Le Client CLI Hive - les nuls
Le premier client Hive est l'interface de ligne de commande Hive (CLI). Pour maîtriser les points plus fins du client CLI Hive, il peut être utile de revoir l'architecture Hive (plutôt occupée). Dans la deuxième figure, l'architecture est rationalisée pour se concentrer uniquement sur les composants requis lors de l'exécution de l'interface de ligne de commande. Ce sont les composants ...
L'écosystème HBase Client - mannequins
HBase est écrit en Java, un langage élégant pour construire des technologies distribuées comme HBase, mais face Tout le monde qui veut profiter des innovations HBase n'est pas un développeur Java. C'est pourquoi il existe un riche écosystème de client HBase dont le seul but est de faire le levé lourd Java pour vous et ...
L'importance de MapReduce dans Hadoop - mannequins
Pour la majeure partie de l'histoire de Hadoop, MapReduce est le seul jeu en ville quand il s'agit de traitement de données. La disponibilité de MapReduce a été la raison du succès de Hadoop et en même temps un facteur majeur dans la limitation de l'adoption. MapReduce permet à des programmeurs expérimentés d'écrire des applications distribuées sans avoir à se soucier de ...
Les Attributs de HBase - mannequins
HBase (Hadoop Database) est une implémentation Java du BigTable de Google. Google définit BigTable comme une «carte triée multidimensionnelle persistante, distribuée et éparse». "C'est une définition assez concise, mais vous serez également d'accord que c'est un peu complexe. Pour décomposer un peu la complexité de BigTable, voici une description de chaque attribut. Hbase est clairsemée ...
L'origine et le design de Hadoop - mannequins
Alors qu'est-ce que c'est que ce drôle de nom - Hadoop? À la base, Hadoop est un cadre permettant de stocker des données sur de grandes grappes de matériel de base - du matériel informatique de tous les jours abordable et facilement disponible - et d'exécuter des applications sur ces données. Un cluster est un groupe d'ordinateurs interconnectés (connu sous le nom de ...
L'Architecture du Porc dans Hadoop - les mannequins
"Simple" signifient souvent "élégant" quand il s'agit de dessins d'architecture pour ce nouveau manoir de la Silicon Valley que vous avez prévu quand l'argent commencera à couler après l'implémentation de Hadoop. Le même principe s'applique à l'architecture logicielle. Pig est composé de deux (count 'em, deux) composants: Le langage lui-même: Comme preuve que les programmeurs ...
Le flux applicatif MapReduce dans Hadoop - les nuls
À La base, MapReduce est un modèle de programmation pour le traitement des ensembles de données sont stockés de manière répartie sur les nœuds esclaves d'un cluster Hadoop. Le concept clé ici est diviser pour régner. Plus précisément, vous voulez diviser un grand ensemble de données en plusieurs parties plus petites et les traiter en parallèle avec le même algorithme. ...
Le flux d'applications Pig Latin dans Hadoop - les mannequins
Sont au cœur de Pig Latin, où vous définissez un flux de données et une série de transformations appliquées aux données lors de leur passage dans votre application. Ceci est en contraste avec un langage de flux de contrôle (comme C ou Java), où vous écrivez une série d'instructions. Dans le flux de contrôle ...
Les Principes de Sqoop Design - les mannequins
Quand il s'agit de Sqoop, une image vaut souvent mille mots, donc jetez un œil à la figure, qui vous donne une vue d'ensemble de l'architecture Sqoop. L'idée de Sqoop est de tirer parti des tâches de mappage - des tâches qui effectuent l'importation et l'exportation parallèles de tables de bases de données relationnelles - de l'intérieur ...
La phase de réduction du flux applicatif MapReduce de Hadoop - les nuls
Traite les clés et leurs listes individuelles de valeurs afin que ce qui est normalement renvoyé à l'application client est un ensemble de paires clé / valeur. Voici le coup par coup jusqu'à présent: Un grand ensemble de données a été divisé en petits morceaux, appelés séparations d'entrée, et des instances individuelles de tâches de mappeur ont traité chaque ...
Le navigateur Web en tant que client Hive - les mannequins
Utilisant la CLI Hive ne requièrent qu'une seule commande pour démarrer le shell Hive, mais lorsque vous voulez accéder à Hive à l'aide d'un navigateur Web, vous devez d'abord démarrer le serveur HWI, puis pointer votre navigateur vers le port sur lequel le serveur écoute. La figure suivante illustre comment ce type de client Hive ...
De la phase Map du flux applicatif MapReduce de Hadoop - mannequins
Une application MapReduce traite les données dans les divisions d'entrée un enregistrement par enregistrement et que MapReduce considère chaque enregistrement comme une paire clé / valeur. Une fois les divisions d'entrée calculées, les tâches de mappeur peuvent commencer à les traiter, c'est-à-dire juste après que la fonction de planification du gestionnaire de ressources leur a assigné leurs ressources de traitement. ...
L'architecture YARN dans Hadoop - mannequins
YARN, pour ceux qui viennent d'arriver à cette fête, signifie Encore une autre ressource Négociateur, un outil qui permet à d'autres frameworks de traitement de données de fonctionner sur Hadoop. La gloire de YARN est de présenter à Hadoop une solution élégante à un certain nombre de défis de longue date. YARN est destiné à fournir un ...
Ce que SQL Access fait en réalité - les nuls
Investissent massivement pour piloter des projets open source et des solutions propriétaires pour Accès SQL aux données Hadoop Lorsque vous entendez le terme accès SQL, vous devez savoir que vous vous basez sur quelques hypothèses de base: Normes linguistiques: La norme la plus importante, bien sûr, implique le langage lui-même. De nombreuses solutions "SQL" existent, ...
Maître d'application de yARN dans Hadoop - mannequins
Contrairement aux autres composants YARN (Yet Another Resource Negotiator), aucun composant dans Hadoop 1 correspond directement au maître d'application. Essentiellement, c'est un travail que le JobTracker a fait pour chaque application, mais la mise en œuvre est radicalement différente. Chaque application exécutée sur le cluster Hadoop possède sa propre instance Application Master dédiée, qui s'exécute ...
La phase de brassage du flux applicatif MapReduce de Hadoop - les nuls
Après la phase Map et avant le début du Réduire la phase est un processus de transfert, connu sous le nom de shuffle et de tri. Ici, les données des tâches du mappeur sont préparées et déplacées vers les nœuds où les tâches du réducteur seront exécutées. Lorsque la tâche de mappage est terminée, les résultats sont triés par clé, partitionnés si ...
Quand HBase a-t-il du sens pour vous? - les nuls
Alors, quand devriez-vous envisager d'utiliser HBase? Bien que la réponse à cette question ne soit pas forcément simple pour tout le monde, pour commencer, vous devez clairement avoir un gros besoin de données et des ressources matérielles suffisantes. Un gros besoin de données: des téraoctets en pétaoctets, sinon vous aurez beaucoup de serveurs inactifs dans vos racks. Ressources matérielles suffisantes: Cinq serveurs ...
Le gestionnaire de nœuds de yARN dans Hadoop - les nuls
Dans chaque nœud esclave dans Yet Another Négociateur de ressources (YARN) a un démon Node Manager , qui agit comme un esclave pour le gestionnaire de ressources. Comme avec le TaskTracker, chaque nœud esclave dispose d'un service qui le relie au service de traitement (Node Manager) et au service de stockage (DataNode) qui permettent à Hadoop d'être un système distribué. ...
Le gestionnaire de ressources de yARN - les nuls
Le composant de base de YARN (Yet Another Resource Negotiator) est le gestionnaire de ressources. ressources de traitement de données dans le cluster Hadoop. En termes simples, le gestionnaire de ressources est un planificateur dédié qui affecte des ressources aux applications demandeuses. Ses seules tâches sont de maintenir une vue globale de toutes les ressources du cluster, en gérant ...
Suivi de JobTracker et TaskTracker dans Hadoop 1 - les mannequins
Traitement mapReduce dans Hadoop 1 est géré par JobTracker et TaskTracker démons. JobTracker conserve une vue de toutes les ressources de traitement disponibles dans le cluster Hadoop et, à mesure que les demandes d'application arrivent, il les planifie et les déploie sur les nœuds TaskTracker pour exécution. Pendant que les applications sont en cours d'exécution, le JobTracker reçoit des mises à jour d'état du ...
Mise en cache de données haute vitesse avec NoSQL - Mannequins
Avec NoSQL, mise en cache rapide. Imaginez que vous êtes un caissier de banque avec trois autres collègues qui travaillent. Vous avez chacun une file de personnes à servir. L'un des clients, cependant, ne cesse de faire la queue pour demander si son chèque a déjà été encaissé et le montant crédité sur son compte. Quand vous ...
Comment communiquer des informations issues du Big Data - les nuls
Peuvent vous aider à mieux comprendre. Les entreprises obtiennent un avantage concurrentiel lorsque la bonne information est transmise aux bonnes personnes au bon moment. Cela signifie extraire des informations et des informations à partir des données et les communiquer aux décideurs d'une manière qu'ils comprendront facilement. Après tout, les gens sont moins susceptibles d'agir s'ils ...
Zookeeper et HBase Fiabilité - mannequins
Zookeeper est un cluster distribué de serveurs qui fournit collectivement des services de coordination et de synchronisation fiables pour les applications en cluster . Certes, le nom "Zookeeper" peut sembler au premier abord être un choix étrange, mais quand vous comprenez ce qu'il fait pour un cluster HBase, vous pouvez voir la logique qui le sous-tend. Lorsque vous construisez et déboguez des distributions ...
Transition d'un modèle SGBDR vers HBase - indicateurs
Si vous faites face à la phase de conception de votre application et Vous croyez que HBase conviendrait parfaitement, puis concevez vos clés de ligne et votre schéma pour les adapter au modèle de données HBase et l'architecture est la bonne approche. Cependant, il est parfois judicieux de déplacer une base de données initialement conçue pour un SGBDR vers HBase. A ...
Dans HiveQL - mannequins
Le concept de fenêtrage, introduit dans la norme SQL: 2003, permet au programmeur SQL de créer un trame à partir des données contre lesquelles l'agrégat et d'autres fonctions de fenêtre peuvent fonctionner. HiveQL prend désormais en charge le fenêtrage selon le standard SQL. Les exemples sont très utiles pour expliquer les fonctions de fenêtrage et d'agrégation. Les délais de départ viennent avec le territoire en vol ...
Accès par clé rapide avec NoSQL - les nuls
Dans NoSQL sont tous centrés sur la vitesse. Vous pouvez utiliser diverses techniques pour optimiser cette vitesse, depuis la mise en cache des données, jusqu'à l'obtention de plusieurs copies de données ou en utilisant les structures de stockage les plus appropriées. Mise en cache des données en mémoire Parce que les données sont facilement accessibles lorsqu'elles sont stockées dans la mémoire vive (RAM), choisissez un magasin de valeurs-clés qui ...
Comment développer un environnement de Big Data sécurisé et bien géré - Mannequins
Une approche bien gérée de la sécurité peut réussir à atténuer de nombreux risques de sécurité. Vous devez développer un environnement de données volumineuses sécurisé. Une chose que vous pouvez faire est d'évaluer votre état actuel. Dans un environnement Big Data, la sécurité commence par l'évaluation de votre état actuel. Un bon point de départ est ...
Comment contrôler l'ordre des variables dans un jeu de données - mannequins
L'ordre des variables (colonnes) dans un jeu de données est généralement juste une question de comment ils ont été disposés dans le fichier source ou la requête de base de données qui a été utilisée pour les importer. Cet arrangement peut ne pas vous convenir. Si vous avez beaucoup de variables, il peut être difficile de repérer celles que vous voulez ...
Comment obtenir des données à partir de KNIME - des nuls
Votre première étape pratique avec les données est à l'endroit où vous en avez besoin. Les formats de texte sont courants et vous risquez de les rencontrer souvent. L'un des plus courants est le texte de valeurs séparées par des virgules (.csv). KNIME. com AG est une petite entreprise de logiciels et de services axée sur les données ...
Comment obtenir des données d'Orange - mannequins
Le laboratoire de bioinformatique de la faculté d'informatique et de sciences de l'information de l'université de Ljubljana, en Slovénie, développe Orange en coopération avec une communauté open source. Pour ouvrir les exemples de données dans Orange, procédez comme suit:
Comment obtenir des données de RapidMiner - dummies
RapidMiner est une petite entreprise de logiciels et de services axée sur l'exploration de données. Il offre un produit d'exploration de données avec une interface de programmation visuelle. Pour ouvrir les exemples de données dans RapidMiner, procédez comme suit:
Comment obtenir des données de Weka - mannequins
Les membres de l'université de Waikato développent des outils dans le cadre de leur travail d'avancement du domaine de l'apprentissage automatique. Ces outils sont utilisés dans l'enseignement, par les scientifiques et dans l'industrie. Weka est son outil d'exploration de données à usage général qui offre une interface de programmation visuelle et un large éventail de capacités d'analyse. MOA est pour l'exploitation minière en temps réel ...