Accueil Finances personnelles La zone d'atterrissage basée sur Hadoop - les nuls

La zone d'atterrissage basée sur Hadoop - les nuls

Vidéo: Introduction to Amazon Web Services by Leo Zhadanovsky 2024

Vidéo: Introduction to Amazon Web Services by Leo Zhadanovsky 2024
Anonim

Lorsque vous essayez de comprendre ce qu'est un environnement analytique pourrait ressembler à l'avenir, vous trébuchez à travers le modèle de la zone d'atterrissage Hadoop à maintes reprises. En fait, il ne s'agit même plus d'une discussion prospective parce que la zone d'atterrissage est devenue le moyen par lequel les entreprises tournées vers l'avenir essaient maintenant d'économiser les coûts informatiques et fournissent une plate-forme pour l'analyse de données innovantes. Alors, quelle est exactement la zone d'atterrissage? Au niveau le plus basique, la zone d'atterrissage

est simplement l'endroit central où les données atterriront dans votre entreprise - des extractions hebdomadaires de données à partir de bases de données opérationnelles, par exemple, ou de systèmes générant des fichiers journaux. Hadoop est un référentiel utile dans lequel débarquer des données, pour les raisons suivantes:

Il peut gérer toutes sortes de données.

C'est facilement évolutif.
  • C'est bon marché.

  • Une fois que vous avez saisi des données dans Hadoop, vous avez la possibilité d'interroger, d'analyser ou de traiter les données de différentes manières.

  • Ce diagramme montre seulement une partie de l'histoire et n'est en aucun cas complet. Après tout, vous devez savoir comment les données passent de la zone d'atterrissage à l'entrepôt de données, et ainsi de suite.

Le point de départ de la discussion sur la modernisation d'un entrepôt de données doit être la manière dont les entreprises utilisent les entrepôts de données et les défis auxquels les services informatiques sont confrontés.

Dans les années 1980, une fois que les organisations sont parvenues à stocker leurs informations opérationnelles dans des bases de données relationnelles (transactions commerciales, par exemple, ou chaînes d'approvisionnement), les chefs d'entreprise ont commencé à vouloir générer des rapports à partir de ces données relationnelles. Les premiers magasins relationnels étaient des bases de données opérationnelles et étaient conçus pour le traitement en ligne des transactions (OLTP), afin que les enregistrements puissent être insérés, mis à jour ou supprimés le plus rapidement possible.

Il s'agit d'une architecture peu pratique pour les rapports et les analyses à grande échelle, de sorte que les bases de données ROLAP (Relational Online Analytical Processing) ont été développées pour répondre à ce besoin. Cela a conduit à l'évolution d'un tout nouveau type de SGBDR: un entrepôt de données

,

qui est une entité distincte et qui vit aux côtés des magasins de données opérationnels d'une organisation. Il s'agit d'utiliser des outils spécifiques pour une plus grande efficacité: vous disposez de magasins de données opérationnels, conçus pour traiter efficacement les transactions, et d'entrepôts de données, conçus pour prendre en charge des analyses et des rapports répétés. Les entrepôts de données sont toutefois de plus en plus stressés, pour les raisons suivantes:

Demande accrue pour conserver de plus longues périodes de données en ligne.

Demande accrue de ressources de traitement pour transformer les données à utiliser dans d'autres entrepôts et autres data marts.

  • Demande accrue d'analyses innovantes, ce qui oblige les analystes à poser des questions sur les données de l'entrepôt, en plus des rapports réguliers déjà en cours. Cela peut entraîner un traitement supplémentaire important.

  • Dans la figure, vous pouvez voir l'entrepôt de données présenté comme la ressource principale pour les différents types d'analyse répertoriés à l'extrême droite de la figure. Ici, vous voyez également le concept d'une zone d'atterrissage représentée, où Hadoop stockera des données à partir d'une variété de sources de données entrantes.

  • Pour activer une zone d'atterrissage Hadoop, vous devez vous assurer que vous pouvez écrire des données à partir des différentes sources de données vers HDFS. Pour les bases de données relationnelles, une bonne solution serait d'utiliser Sqoop.

Mais l'atterrissage des données n'est que le début.

Lorsque vous déplacez des données provenant de nombreuses sources dans votre zone d'atterrissage, la qualité des données est un problème inévitable. Il est courant pour les entreprises d'avoir de nombreuses bases de données opérationnelles où les détails clés sont différents, par exemple, qu'un client pourrait être connu sous le nom de "D. deRoos "dans une base de données, et" Dirk deRoos "dans une autre.

Un autre problème de qualité réside dans les systèmes où la saisie manuelle des données est importante, qu'il s'agisse de clients ou de personnel. Il n'est pas rare de trouver des noms et des noms échangés ou d'autres informations erronées.

Les problèmes de qualité des données sont importants pour les environnements d'entrepôt de données. C'est pourquoi de nombreux efforts sont consacrés aux étapes de nettoyage et de validation, car les données des autres systèmes sont traitées lors de leur chargement dans l'entrepôt. Tout se résume à

confiance

: si les données sur lesquelles vous posez des questions sont sales, vous ne pouvez pas faire confiance aux réponses dans vos rapports. Ainsi, alors qu'il existe un énorme potentiel d'accès à de nombreux ensembles de données provenant de sources différentes dans votre zone de réception Hadoop, vous devez tenir compte de la qualité des données et de la fiabilité des données.

La zone d'atterrissage basée sur Hadoop - les nuls

Le choix des éditeurs

Comment éviter les erreurs en programmation C ++ - mannequins

Comment éviter les erreurs en programmation C ++ - mannequins

Le moyen le plus simple et le plus efficace de corriger les erreurs en C ++ est d'éviter de les introduire dans vos programmes en premier lieu. Une partie de cela est juste une question d'expérience, mais l'adoption d'un style de programmation clair et cohérent aide. Coder avec style Les humains ont une quantité limitée de puissance CPU entre leurs oreilles. You ...

Comment construire un modèle de structure en C ++ - les mannequins

Comment construire un modèle de structure en C ++ - les mannequins

Ont de nombreux usages intéressants, comme créer un référentiel de données qui ne dépend pas d'un type particulier. L'exemple StructureTemplate montre ici une telle utilisation. #include en utilisant l'espace de noms std; template struct Volume {T hauteur; T largeur; T longueur; Volume () {height = 0; largeur = 0; length = 0;} ...

Comment copier des fichiers en C ++ - des nuls

Comment copier des fichiers en C ++ - des nuls

Ah, en copiant un fichier - quelque chose de si simple, temps. Copiez ce fichier là-bas; Copiez ce fichier ici. Mais que se passe-t-il exactement lorsque vous copiez un fichier? Vous créez réellement un nouveau fichier et le remplissez avec le même contenu que le fichier original. Et comment faites-vous cela? Eh bien, ...

Le choix des éditeurs

La zone d'atterrissage basée sur Hadoop - les nuls

La zone d'atterrissage basée sur Hadoop - les nuls

Lorsque vous essayez de comprendre à quoi pourrait ressembler un environnement analytique l'avenir, vous trébuchez à travers le modèle de la zone d'atterrissage Hadoop à maintes reprises. En fait, ce n'est même plus une discussion prospective car la zone d'atterrissage est devenue la façon dont les entreprises tournées vers l'avenir tentent de sauver l'informatique ...

L'analyse statistique des limites d'échantillonnage dans Hadoop - mannequins

L'analyse statistique des limites d'échantillonnage dans Hadoop - mannequins

Est loin d'être une nouveauté, Il est certainement vieux que cela dépend du traitement de grandes quantités de données pour obtenir de nouvelles informations. Cependant, la quantité de données traditionnellement traitées par ces systèmes se situait entre 10 et 100 (ou centaines de) gigaoctets - ...

Le HBase MasterServer - les nuls

Le HBase MasterServer - les nuls

Démarrant une discussion de l'architecture HBase (Hadoop Database) en décrivant RegionServers au lieu du MasterServer peuvent vous surprendre . Le terme RegionServer semblerait impliquer que cela dépend (et est secondaire) du MasterServer et que vous devriez donc d'abord discuter du MasterServer. Comme le dit la vieille chanson, "ce n'est pas nécessairement le cas. "Le ...

Le choix des éditeurs

Débogage EtherChannel - mannequins

Débogage EtherChannel - mannequins

Les options de base de la commande de débogage pour EtherChannel sont listées ici. Comme toujours avec la commande debug dans un réseau Cisco, vous pouvez utiliser des options spécifiques si vous avez une idée de l'emplacement des problèmes ou si vous pouvez activer toutes les options de débogage pour le composant - si cela ne génère pas trop ...

Connexion de vos périphériques de réseau étendu (WAN) - mannequins

Connexion de vos périphériques de réseau étendu (WAN) - mannequins

Pour tout type de connexion WAN choisissez d'utiliser, vous devez établir une connexion entre le fournisseur de services et votre routeur. La façon dont vous le faites varie en fonction du type de connexion. En général, vous utiliserez des ports série ou des ports RNIS ou implémenterez une unité de service de canal / unité de service de données (CSU / DSU). Série ...

Distance-Notions de base sur les routages vectoriels - mannequins

Distance-Notions de base sur les routages vectoriels - mannequins

Fonctions de routage vectoriel en passant des tables de routage entre périphériques sur le réseau. Ainsi, le premier routeur regarde ses interfaces connectées, construit une table de routage et transmet cette information à d'autres routeurs sur ses interfaces connectées. Si le routeur reçoit des tables de routage d'autres routeurs, il met à jour toutes les métriques utilisées pour choisir les routes, telles que ...