Accueil Finances personnelles La zone d'atterrissage basée sur Hadoop - les nuls

La zone d'atterrissage basée sur Hadoop - les nuls

Vidéo: Introduction to Amazon Web Services by Leo Zhadanovsky 2025

Vidéo: Introduction to Amazon Web Services by Leo Zhadanovsky 2025
Anonim

Lorsque vous essayez de comprendre ce qu'est un environnement analytique pourrait ressembler à l'avenir, vous trébuchez à travers le modèle de la zone d'atterrissage Hadoop à maintes reprises. En fait, il ne s'agit même plus d'une discussion prospective parce que la zone d'atterrissage est devenue le moyen par lequel les entreprises tournées vers l'avenir essaient maintenant d'économiser les coûts informatiques et fournissent une plate-forme pour l'analyse de données innovantes. Alors, quelle est exactement la zone d'atterrissage? Au niveau le plus basique, la zone d'atterrissage

est simplement l'endroit central où les données atterriront dans votre entreprise - des extractions hebdomadaires de données à partir de bases de données opérationnelles, par exemple, ou de systèmes générant des fichiers journaux. Hadoop est un référentiel utile dans lequel débarquer des données, pour les raisons suivantes:

Il peut gérer toutes sortes de données.

C'est facilement évolutif.
  • C'est bon marché.

  • Une fois que vous avez saisi des données dans Hadoop, vous avez la possibilité d'interroger, d'analyser ou de traiter les données de différentes manières.

  • Ce diagramme montre seulement une partie de l'histoire et n'est en aucun cas complet. Après tout, vous devez savoir comment les données passent de la zone d'atterrissage à l'entrepôt de données, et ainsi de suite.

Le point de départ de la discussion sur la modernisation d'un entrepôt de données doit être la manière dont les entreprises utilisent les entrepôts de données et les défis auxquels les services informatiques sont confrontés.

Dans les années 1980, une fois que les organisations sont parvenues à stocker leurs informations opérationnelles dans des bases de données relationnelles (transactions commerciales, par exemple, ou chaînes d'approvisionnement), les chefs d'entreprise ont commencé à vouloir générer des rapports à partir de ces données relationnelles. Les premiers magasins relationnels étaient des bases de données opérationnelles et étaient conçus pour le traitement en ligne des transactions (OLTP), afin que les enregistrements puissent être insérés, mis à jour ou supprimés le plus rapidement possible.

Il s'agit d'une architecture peu pratique pour les rapports et les analyses à grande échelle, de sorte que les bases de données ROLAP (Relational Online Analytical Processing) ont été développées pour répondre à ce besoin. Cela a conduit à l'évolution d'un tout nouveau type de SGBDR: un entrepôt de données

,

qui est une entité distincte et qui vit aux côtés des magasins de données opérationnels d'une organisation. Il s'agit d'utiliser des outils spécifiques pour une plus grande efficacité: vous disposez de magasins de données opérationnels, conçus pour traiter efficacement les transactions, et d'entrepôts de données, conçus pour prendre en charge des analyses et des rapports répétés. Les entrepôts de données sont toutefois de plus en plus stressés, pour les raisons suivantes:

Demande accrue pour conserver de plus longues périodes de données en ligne.

Demande accrue de ressources de traitement pour transformer les données à utiliser dans d'autres entrepôts et autres data marts.

  • Demande accrue d'analyses innovantes, ce qui oblige les analystes à poser des questions sur les données de l'entrepôt, en plus des rapports réguliers déjà en cours. Cela peut entraîner un traitement supplémentaire important.

  • Dans la figure, vous pouvez voir l'entrepôt de données présenté comme la ressource principale pour les différents types d'analyse répertoriés à l'extrême droite de la figure. Ici, vous voyez également le concept d'une zone d'atterrissage représentée, où Hadoop stockera des données à partir d'une variété de sources de données entrantes.

  • Pour activer une zone d'atterrissage Hadoop, vous devez vous assurer que vous pouvez écrire des données à partir des différentes sources de données vers HDFS. Pour les bases de données relationnelles, une bonne solution serait d'utiliser Sqoop.

Mais l'atterrissage des données n'est que le début.

Lorsque vous déplacez des données provenant de nombreuses sources dans votre zone d'atterrissage, la qualité des données est un problème inévitable. Il est courant pour les entreprises d'avoir de nombreuses bases de données opérationnelles où les détails clés sont différents, par exemple, qu'un client pourrait être connu sous le nom de "D. deRoos "dans une base de données, et" Dirk deRoos "dans une autre.

Un autre problème de qualité réside dans les systèmes où la saisie manuelle des données est importante, qu'il s'agisse de clients ou de personnel. Il n'est pas rare de trouver des noms et des noms échangés ou d'autres informations erronées.

Les problèmes de qualité des données sont importants pour les environnements d'entrepôt de données. C'est pourquoi de nombreux efforts sont consacrés aux étapes de nettoyage et de validation, car les données des autres systèmes sont traitées lors de leur chargement dans l'entrepôt. Tout se résume à

confiance

: si les données sur lesquelles vous posez des questions sont sales, vous ne pouvez pas faire confiance aux réponses dans vos rapports. Ainsi, alors qu'il existe un énorme potentiel d'accès à de nombreux ensembles de données provenant de sources différentes dans votre zone de réception Hadoop, vous devez tenir compte de la qualité des données et de la fiabilité des données.

La zone d'atterrissage basée sur Hadoop - les nuls

Le choix des éditeurs

Comprendre les verrues génitales et l'herpès - les nuls

Comprendre les verrues génitales et l'herpès - les nuls

Un Américain sur quatre entre 15 et 55 ans se contractera au moins une maladie sexuellement transmissible. Plus vous en savez, plus vous pouvez empêcher que cela ne vous arrive. Ci-dessous, deux maladies incurables sont discutées. Verrues génitales Près de deux millions de personnes aux États-Unis sont infectées chaque année par ...

Ce qui se passe pendant les rapports sexuels - les nuls

Ce qui se passe pendant les rapports sexuels - les nuls

Rapports hétérosexuels se produisent chaque fois qu'un homme met son pénis dans le vagin d'une femme. C'est la définition minimale. Mais le sexe est à propos de plus que ce simple acte. En tant que tel, vous pouvez être curieux, ou vous pouvez vouloir savoir comment décrire le sexe à un adolescent. Les informations ci-dessous expliquent ce qui se passe exactement pendant ...

Qu'est-ce qu'un orgasme? - des mannequins

Qu'est-ce qu'un orgasme? - des mannequins

Certaines femmes se demandent si elles ont déjà eu un orgasme. Ce n'est pas une question ridicule, car de nombreuses femmes n'ont jamais atteint l'apogée, et d'autres éprouvent ce qu'on appelle un orgasme manqué. Donc, s'ils ont manqué un orgasme passager ou ne s'en sont même pas approchés, des millions de femmes (et quelques hommes) n'ont même pas ...

Le choix des éditeurs

En utilisant le moniteur au lieu du viseur sur votre Nikon D3100 - des mannequins

En utilisant le moniteur au lieu du viseur sur votre Nikon D3100 - des mannequins

Comme beaucoup de nouveaux reflex numériques caméras, le Nikon D3100 offre Live View, qui utilise le moniteur comme viseur lors de la prise de photos. Activer Live View est également la première partie du processus de prise de vue vidéo; en fait, vous devez utiliser le moniteur au lieu du viseur lorsque vous filmez des films. Utilisation de la vue en direct ...

En mode Live View et en mode vidéo Autofocus avec un Nikon D7000 - mannequins

En mode Live View et en mode vidéo Autofocus avec un Nikon D7000 - mannequins

Comme pour la photographie avec viseur , vous pouvez opter pour la mise au point automatique pendant la prise de vue Live View sur votre Nikon D7000, en supposant que votre objectif le supporte. Si vous utilisez l'objectif du kit (ou un similaire), réglez l'interrupteur de l'objectif sur la position A. Les étapes suivantes expliquent le choix des réglages de l'autofocus, puis ...

Le choix des éditeurs

Notions de base sur l'électronique: Alternateurs

Notions de base sur l'électronique: Alternateurs

Vous aurez besoin d'apprendre un peu sur le courant alternatif (AC), si vous souhaitez utiliser une alimentation CA dans vos circuits électroniques. Un bon moyen de comprendre comment ca fonctionne est de regarder l'appareil le plus souvent utilisé pour le générer: l'alternateur. Un alternateur est un appareil qui ...

ÉLectronique Notions de base: PN Jonctions - nuls

ÉLectronique Notions de base: PN Jonctions - nuls

Seuls, type P (charge positive) et les semi-conducteurs de type N (chargés négativement) ne sont que des conducteurs. Mais si vous les mettez ensemble sur un circuit électronique, vous créez une jonction p-n et une chose intéressante et très utile se produit: Le courant peut circuler à travers la jonction p-n, mais seulement dans une direction. Si vous mettez une tension positive sur ...