La zone d'atterrissage basée sur Hadoop - les nuls

Lorsque vous essayez de comprendre ce qu'est un environnement analytique pourrait ressembler à l'avenir, vous trébuchez à travers le modèle de la zone d'atterrissage Hadoop à maintes reprises. En fait, il ne s'agit même plus d'une discussion prospective parce que la zone d'atterrissage est devenue le moyen par lequel les entreprises tournées vers l'avenir essaient maintenant d'économiser les coûts informatiques et fournissent une plate-forme pour l'analyse de données innovantes. Alors, quelle est exactement la zone d'atterrissage? Au niveau le plus basique, la zone d'atterrissage

est simplement l'endroit central où les données atterriront dans votre entreprise - des extractions hebdomadaires de données à partir de bases de données opérationnelles, par exemple, ou de systèmes générant des fichiers journaux. Hadoop est un référentiel utile dans lequel débarquer des données, pour les raisons suivantes:

Il peut gérer toutes sortes de données.

C'est facilement évolutif.

C'est bon marché.
Une fois que vous avez saisi des données dans Hadoop, vous avez la possibilité d'interroger, d'analyser ou de traiter les données de différentes manières.
Ce diagramme montre seulement une partie de l'histoire et n'est en aucun cas complet. Après tout, vous devez savoir comment les données passent de la zone d'atterrissage à l'entrepôt de données, et ainsi de suite.

Le point de départ de la discussion sur la modernisation d'un entrepôt de données doit être la manière dont les entreprises utilisent les entrepôts de données et les défis auxquels les services informatiques sont confrontés.

Dans les années 1980, une fois que les organisations sont parvenues à stocker leurs informations opérationnelles dans des bases de données relationnelles (transactions commerciales, par exemple, ou chaînes d'approvisionnement), les chefs d'entreprise ont commencé à vouloir générer des rapports à partir de ces données relationnelles. Les premiers magasins relationnels étaient des bases de données opérationnelles et étaient conçus pour le traitement en ligne des transactions (OLTP), afin que les enregistrements puissent être insérés, mis à jour ou supprimés le plus rapidement possible.

Il s'agit d'une architecture peu pratique pour les rapports et les analyses à grande échelle, de sorte que les bases de données ROLAP (Relational Online Analytical Processing) ont été développées pour répondre à ce besoin. Cela a conduit à l'évolution d'un tout nouveau type de SGBDR: un entrepôt de données

qui est une entité distincte et qui vit aux côtés des magasins de données opérationnels d'une organisation. Il s'agit d'utiliser des outils spécifiques pour une plus grande efficacité: vous disposez de magasins de données opérationnels, conçus pour traiter efficacement les transactions, et d'entrepôts de données, conçus pour prendre en charge des analyses et des rapports répétés. Les entrepôts de données sont toutefois de plus en plus stressés, pour les raisons suivantes:

Demande accrue pour conserver de plus longues périodes de données en ligne.

Demande accrue de ressources de traitement pour transformer les données à utiliser dans d'autres entrepôts et autres data marts.

Demande accrue d'analyses innovantes, ce qui oblige les analystes à poser des questions sur les données de l'entrepôt, en plus des rapports réguliers déjà en cours. Cela peut entraîner un traitement supplémentaire important.
Dans la figure, vous pouvez voir l'entrepôt de données présenté comme la ressource principale pour les différents types d'analyse répertoriés à l'extrême droite de la figure. Ici, vous voyez également le concept d'une zone d'atterrissage représentée, où Hadoop stockera des données à partir d'une variété de sources de données entrantes.
Pour activer une zone d'atterrissage Hadoop, vous devez vous assurer que vous pouvez écrire des données à partir des différentes sources de données vers HDFS. Pour les bases de données relationnelles, une bonne solution serait d'utiliser Sqoop.

Mais l'atterrissage des données n'est que le début.

Lorsque vous déplacez des données provenant de nombreuses sources dans votre zone d'atterrissage, la qualité des données est un problème inévitable. Il est courant pour les entreprises d'avoir de nombreuses bases de données opérationnelles où les détails clés sont différents, par exemple, qu'un client pourrait être connu sous le nom de "D. deRoos "dans une base de données, et" Dirk deRoos "dans une autre.

Un autre problème de qualité réside dans les systèmes où la saisie manuelle des données est importante, qu'il s'agisse de clients ou de personnel. Il n'est pas rare de trouver des noms et des noms échangés ou d'autres informations erronées.

Les problèmes de qualité des données sont importants pour les environnements d'entrepôt de données. C'est pourquoi de nombreux efforts sont consacrés aux étapes de nettoyage et de validation, car les données des autres systèmes sont traitées lors de leur chargement dans l'entrepôt. Tout se résume à

confiance

: si les données sur lesquelles vous posez des questions sont sales, vous ne pouvez pas faire confiance aux réponses dans vos rapports. Ainsi, alors qu'il existe un énorme potentiel d'accès à de nombreux ensembles de données provenant de sources différentes dans votre zone de réception Hadoop, vous devez tenir compte de la qualité des données et de la fiabilité des données.