Pourquoi le Cloud est-il impératif pour les Big Data - les nuls
Données dans le nuage. Par exemple, vous pouvez utiliser un cloud public IaaS ou un cloud privé IaaS. Alors, qu'est-ce que cela signifie pour le Big Data et pourquoi le cloud convient-il? Eh bien, le big data nécessite des clusters distribués de puissance de calcul, ...
ÉTendre votre couche de données avec NoSQL - mannequins
Une base de données fait très bien: elle stocke des données. Cependant, étant donné que toutes les applications nécessitent la mise à disposition de logiciels supplémentaires, il est important de vous assurer que la base de données NoSQL sélectionnée dispose des outils et du logiciel partenaire qui fournissent les fonctionnalités étendues dont vous avez besoin. Ne pas s'assurer que les fonctionnalités étendues sont supportées signifie que vous finirez par installer ...
Comment trouver le nombre d'éléments dans un flux de données - mannequins
Même si un Bloom Le filtre peut suivre les objets arrivant d'un flux, il ne peut pas dire combien d'objets sont là. Un vecteur bit rempli par un peut (en fonction du nombre de hashs et de la probabilité de collision) cacher le vrai nombre d'objets hachés à la même adresse. Connaître le nombre distinct de ...
Correctement - les mannequins
Utilisent l'expérience lorsqu'ils interprètent les données qu'ils voient, mais pas les ordinateurs. Votre logiciel d'exploration de données fera de son mieux pour identifier le type de données dans chaque colonne, mais les types de données sont souvent ambigus. Lorsque vous voyez une liste de codes postaux, vous n'essayez pas de les ajouter et les soustraire. Vous savez qu'ils ...
Cinq Bonnes Pratiques du Big Data - les nuls
Sont seulement dans les premières étapes, mais il n'est jamais trop tôt Commencez avec les meilleures pratiques. Comme pour toute technologie importante à venir, il est important d'avoir une stratégie en place et de savoir où vous allez. Établissez une feuille de route pour les données volumineuses À ce stade, vous avez expérimenté les données volumineuses ...
Cinq plans pour le succès du Big Data - des nuls
Alors que le big data n'en est qu'à ses débuts, vous voulez planifier pour le succes. Il n'est jamais trop tôt pour commencer avec la planification et les bonnes pratiques afin que vous puissiez exploiter ce que vous apprenez et l'expérience que vous gagnez. Planifiez vos objectifs de big data De nombreuses entreprises démarrent leur grand voyage de données ...
Quatre étapes de la planification d'entreprise avec Big Data - mannequins
Qu'attend le plan d'affaires en tirant parti Big Data? Ce n'est pas une question facile à répondre. Différentes entreprises de différentes industries doivent gérer leurs données différemment. Mais certains problèmes commerciaux communs sont au centre de la façon dont les grandes données sont considérées comme un moyen de planifier ...
Graphiques Comme les diagrammes Algorithmic Data Structures - dummies
Sont une forme de structure de données commune utilisée dans les algorithmes. Vous voyez des graphiques utilisés dans des endroits comme des cartes pour GPS et toutes sortes d'autres endroits où l'approche descendante d'une structure arborescente ne fonctionnera pas. Un graphique est une sorte d'extension d'arbre. Comme pour les arbres, vous avez des nœuds qui se connectent ...
3 Configurations de cluster hadoop - nuls
De nombreuses décisions à prendre en termes de composition des racks et de mise en réseau dépend de l'échelle de votre cluster Hadoop. Il a trois permutations principales.
Algorithmes en affaires - Mannequins
La race humaine se trouve maintenant à une intersection incroyable de volumes de données sans précédent matériel plus petit et puissant, et analysé par des algorithmes que ce même processus a aidé à développer. Ce n'est pas simplement une question de volume, ce qui en soi est un défi difficile. Formalisée par la société de recherche Gartner en 2001 et ...
Gordon Moore transforme le pouvoir en Big Data - les nuls
En 1965, Gordon Moore, cofondateur d'Intel et Fairchild Semiconductor (deux sociétés géantes qui produisent des composants électroniques pour l'électronique et les ordinateurs), a déclaré dans un magazine électronique intitulé "Cramming plus de composants sur circuits intégrés" que le nombre de composants dans les circuits intégrés doublerait chaque année pour la prochaine décennie. A l'époque, les transistors ...
Apache Drill - nuls
Apache Drill est un projet candidat dans l'incubateur Apache. Apache Drill n'est pas spécialement maladif, cependant. Les technologies candidates d'Apache Software Foundation (ASF) commencent toutes en tant que projets d'incubation avant de devenir des technologies ASF officielles. Vous pouvez lire sur l'Incubateur Apache. Vous pouvez lire à propos de Drill. Inspiré par la technologie Dremel de Google, l'objectif de performance déclaré pour ...
Apache Bigtop et Hadoop - mannequins
Pour vous aider à démarrer avec Hadoop, voici les instructions pour télécharger et régler rapidement Hadoop sur votre propre ordinateur portable. Votre cluster s'exécutera en mode pseudo-distribué sur une machine virtuelle, vous n'aurez donc pas besoin de matériel spécial. Une machine virtuelle (VM) est un ordinateur simulé que vous pouvez utiliser ...
Cloudera Impala et Hadoop - mannequins
Cloudera est l'un des principaux fournisseurs de logiciels et de services Apache Hadoop sur le marché du big data. Comme Apache Drill, la technologie Impala de Cloudera cherche à améliorer le temps de réponse des requêtes interactives pour les utilisateurs de Hadoop. Apache Hive fournit un mécanisme de requête familier et puissant pour les utilisateurs Hadoop, mais les temps de réponse des requêtes sont souvent inacceptables en raison de la confiance de Hive ...
Facteurs de forme de déploiement alternatifs pour Hadoop - mannequins
Bien qu'Hadoop fonctionne mieux lorsqu'il est installé sur un ordinateur physique, où le traitement a un accès direct au stockage dédié et à la mise en réseau, Hadoop propose des déploiements alternatifs. Et bien qu'ils soient moins efficaces que le matériel dédié, dans certains cas les alternatives sont des options intéressantes. Serveurs virtualisés Une tendance majeure dans les centres informatiques au cours de la dernière décennie ...
Les qualificatifs de colonne du modèle de données HBase - mannequins
Dans les qualificatifs de colonne du modèle de données HBase sont des noms spécifiques vos valeurs de données afin de vous assurer que vous êtes en mesure de les identifier avec précision. Contrairement aux familles de colonnes, les qualificatifs de colonne peuvent être virtuellement illimités en termes de contenu, de longueur et de nombre. Si vous omettez le qualificateur de colonne, le système HBase en affectera un pour vous. Imprimable ...
ACID par rapport aux magasins de données BASE - mannequins
L'une des caractéristiques des systèmes de bases de données relationnelles est la conformité ACID. Comme vous pouvez le deviner, ACID est un acronyme - les lettres individuelles, destinées à décrire une caractéristique de transactions de base de données individuelles, peuvent être étendues comme décrit dans cette liste: Atomicity: La transaction de base de données doit réussir complètement ou échouer complètement. Le succès partiel est ...
En configurant Oozie Workflows - des nuls
En tant que moteur de workflow, Oozie vous permet d'exécuter un ensemble d'applications Hadoop dans une séquence spécifiée comme un flux de travail. Vous pouvez configurer les flux de travail Oozie de trois façons, en fonction de votre situation particulière. Vous pouvez utiliser la configuration par défaut. Fichier xml: Définit les paramètres qui ne changent pas pour le flux de travail. Le travail. fichier de propriétés: Définit ...
10 Ressources Hadoop Digne d'un Signet - Les nuls
Suivants sont dix ressources Hadoop qui méritent d'être créées marque-page dans votre navigateur. Ces ressources vous aident à créer un plan d'apprentissage permanent pour Hadoop. Système nerveux central: Apache. org Apache Software Foundation (ASF) est la communauté centrale pour les projets de logiciels open source. Pas n'importe quel projet peut être un projet Apache - ...
Dans le compactage HBase - nuls
, Processus par lequel HBase se nettoie après lui-même, existe en deux versions: majeure et mineure . Les compactions majeures peuvent être un gros problème, mais vous devez d'abord comprendre les compactages mineurs. Les compactions mineures combinent un nombre configurable de HFiles plus petits en un HFile plus grand. Vous pouvez régler le nombre de HFiles à compacter et ...
Transformation de données dans Hadoop - mannequins
L'idée des moteurs ETL inspirés de Hadoop a gagné en popularité ces dernières années. Après tout, Hadoop est une plate-forme de stockage et de traitement de données flexible qui peut prendre en charge d'énormes quantités de données et d'opérations sur ces données. Dans le même temps, il est tolérant aux pannes et offre la possibilité de coûts en capital et en logiciels ...
De programmation dans le système de fichiers distribués Hadoop (HDFS) - mannequins
Lorsque vous stockez un fichier dans HDFS, le système le divise en un ensemble de blocs individuels et stocke ces blocs dans divers nœuds esclaves dans le cluster Hadoop. C'est une chose tout à fait normale, car tous les systèmes de fichiers décomposent les fichiers en blocs avant de les stocker sur le disque. HDFS n'a pas ...
Data Warehouse Modernisation avec Hadoop - les mannequins de données
Sont maintenant soumis à des contraintes, essayant de faire face à une demande accrue Ressources. Hadoop peut apporter un soulagement significatif dans cette situation d'entrepôt de données. L'augmentation rapide de la quantité de données générées dans le monde a également affecté les entrepôts de données parce que les volumes de données qu'ils gèrent augmentent en partie parce que ...
Développer Oozie Workflows dans Hadoop - les ficelles
Sont des graphes orientés, où vous pouvez définir des actions (Applications Hadoop) et le flux de données, mais sans bouclage, ce qui signifie que vous ne pouvez pas définir une structure dans laquelle vous exécuterez une opération spécifique encore et encore jusqu'à ce que certaines conditions soient remplies (une boucle for, par exemple). Les workflows Oozie sont assez flexibles en ce sens que ...
Comparant Hadoop Distributions - les nuls
Vous trouverez que l'écosystème Hadoop comporte de nombreux composants, qui existent tous Projets Apache. Étant donné que Hadoop a considérablement évolué et qu'il est confronté à d'importants changements, les différentes versions de ces composants de la communauté open source peuvent ne pas être totalement compatibles avec les autres composants. Cela pose des difficultés considérables pour les personnes cherchant à obtenir ...
Facteurs qui augmentent l'échelle d'analyse statistique dans Hadoop - mannequins
La raison pour laquelle les gens échantillonnent leurs données Avant d'exécuter l'analyse statistique dans Hadoop, il faut souvent que ce type d'analyse nécessite des ressources informatiques importantes. Il ne s'agit pas seulement de volumes de données: il y a cinq facteurs principaux qui influencent l'échelle de l'analyse statistique: Celui-ci est facile, mais il faut le mentionner: le volume de données sur ...
Compression de données dans Hadoop - mannequins
Les énormes volumes de données qui constituent des réalités dans un déploiement Hadoop typique font de la compression une nécessité. La compression des données vous permet d'économiser beaucoup d'espace de stockage et d'accélérer le mouvement de ces données dans votre cluster. Sans surprise, un certain nombre de schémas de compression disponibles, appelés codecs, sont là pour ...
Hadapt et Hadoop - nuls
En fin d'année 2010, Hadapt a été créée en tant que start-up par deux étudiants de l'Université de Yale. un professeur adjoint d'informatique. Le professeur Daniel Abadi et Kamil Bajda-Pawlikowski, un étudiant en doctorat du département informatique de Yale, travaillaient sur le projet de recherche HadoopDB. Après la publication de ce document, Justin Borgman, un étudiant de ...
Google Dremel et Hadoop - mannequins
Pour la plupart des gens, le terme Dremel évoque une maniabilité rapide et pratique outil de couple qui fonctionne bien pour une variété d'emplois dans la maison. Mais saviez-vous que Google a créé un Dremel? Plutôt que de produire un autre outil mécanique portatif, Google a choisi un outil logiciel rapide destiné à l'analyse interactive des mégadonnées. ...
Hadoop et Hive - des nuls
Pour faire une histoire courte, Hive fournit à Hadoop un pont vers le monde RDBMS et fournit un Dialecte SQL connu sous le nom Hive Query Language (Hive Query Language), qui peut être utilisé pour effectuer des tâches de type SQL. C'est la grande nouvelle, mais il y a plus que ce que l'on peut imaginer, ou plus ...
Nœuds de périphérie dans les clusters Hadoop - nœuds de périphérie
Sont l'interface entre le cluster Hadoop et le réseau externe. Pour cette raison, ils sont parfois appelés nœuds de passerelle. Le plus souvent, les nœuds périphériques sont utilisés pour exécuter des applications client et des outils d'administration de cluster. Ils sont également souvent utilisés comme zones de transfert pour les données transférées dans le cluster Hadoop. A ce titre, Oozie, ...
Détection de fraude avec Hadoop - mannequins
Le volume des transactions rend difficile la détection de fraudes en raison du volume de données, Ironiquement, ce même défi peut aider à créer de meilleurs modèles prédictifs de la fraude - un domaine où Hadoop brille. Dans le monde interconnecté d'aujourd'hui, le volume et la complexité des transactions rendent plus difficile que jamais la découverte de la fraude. Qu'est-ce que ...
Graphe Dans Hadoop - mannequins
, L'une des technologies émergentes NoSQL les plus passionnantes concerne le stockage et le traitement des données graphiques. Vous pourriez penser que cette affirmation est ancienne car les informaticiens développent des techniques d'analyse graphique depuis des décennies. Ce que vous dites est peut-être vrai, mais ce qui est nouveau, c'est qu'en utilisant Hadoop, vous pouvez faire un graphique ...
Fédération de systèmes de fichiers distribués (HDFS) hadoop - mannequins
La solution pour étendre indéfiniment les clusters Hadoop est de fédérer le NameNode. Avant que Hadoop 2 n'entre en scène, les clusters Hadoop devaient accepter le fait que NameNode imposait des limites sur le degré auquel ils pouvaient évoluer. Peu de grappes ont pu atteindre plus de 3 000 ou 4 000 nœuds. Le besoin de NameNode de conserver les enregistrements pour ...
Haute disponibilité du système de fichiers distribués (HDFS) hadoop - les mannequins
Souvent à l'enfance de Hadoop, une grande quantité de discussion a été centrée sur la représentation de NameNode d'un seul point de défaillance. Hadoop, dans l'ensemble, a toujours eu une architecture robuste et tolérante aux pannes, à l'exception de ce domaine clé. Sans NameNode, il n'y a pas de cluster Hadoop. En utilisant Hadoop 2, vous pouvez configurer HDFS pour qu'il y ait ...
Hadoop en tant que moteur de prétraitement des données - les nuls
Sont l'un des premiers cas d'utilisation de Hadoop dans l'entreprise. moteur de transformation programmatique utilisé pour prétraiter les données liées à un entrepôt de données. Essentiellement, ce cas d'utilisation exploite la puissance de l'écosystème Hadoop pour manipuler et appliquer des transformations aux données avant qu'elles ne soient chargées dans un entrepôt de données. Bien que la transformation réelle ...
Hadoop en tant qu'archive interrogeable de données d'entrepôt frigorifique - les nuls
Montrent que la plupart des données dans un entrepôt de données d'entreprise est rarement interrogé. Les fournisseurs de bases de données ont réagi à de telles observations en mettant en œuvre leurs propres méthodes pour trier les données placées où. Une méthode ordonne l'univers des données en désignations de chaud, chaud ou froid, où les données chaudes (parfois appelées ...
Hadoop en tant que destination de données d'archives - mannequins
Coût abordable de stockage pour Hadoop plus possibilité d'interroger des données Hadoop avec SQL fait de Hadoop la destination principale pour les données d'archives. Ce cas d'utilisation a un faible impact sur votre organisation car vous pouvez commencer à développer votre ensemble de compétences Hadoop sur des données qui ne sont pas stockées sur des systèmes critiques en termes de performances. De plus, vous n'avez pas ...
Commandes d'administration hadoop - mannequins
Tout administrateur Hadoop digne de ce nom doit maîtriser un ensemble complet de commandes pour l'administration des clusters. La liste suivante résume les commandes les plus importantes, en indiquant ce que la commande fait ainsi que la syntaxe et les exemples. Connaissez-les, et vous avancerez un long chemin sur le chemin de la sagesse Hadoop. Equilibreur: exécute l'utilitaire d'équilibrage de cluster. ...
Système de fichiers distribués hadoop (HDFS) pour les projets Big Data - mannequins
Le fichier distribué Hadoop Le système est une approche polyvalente, résiliente et en cluster pour la gestion de fichiers dans un environnement de données volumineuses. HDFS n'est pas la destination finale des fichiers. Il s'agit plutôt d'un service de données qui offre un ensemble unique de fonctionnalités nécessaires lorsque les volumes de données et la vélocité sont élevés. Parce que les données sont écrites une fois et ...