Big Data Analysis et Data Warehouse - les nuls

Vidéo: Machine Learning Tutorial 5 - Big Data, Data Warehouse, Hadoop, Federation 2025

Vous trouverez utile de réunir les capacités de l'entrepôt de données et de l'environnement Big Data. Vous devez créer un environnement hybride où les données volumineuses peuvent fonctionner de pair avec l'entrepôt de données.

Tout d'abord, il est important de reconnaître que l'entrepôt de données tel qu'il est conçu aujourd'hui ne changera pas à court terme.

Par conséquent, il est plus pragmatique d'utiliser l'entrepôt de données pour ce pour quoi il a été conçu - fournir une version bien vérifiée de la vérité sur un sujet que l'entreprise veut analyser. L'entrepôt peut inclure des informations sur la gamme de produits d'une entreprise particulière, ses clients, ses fournisseurs et les détails des transactions d'une année.

Les informations gérées dans l'entrepôt de données ou dans un entrepôt de données départemental ont été soigneusement conçues pour que les métadonnées soient exactes. Avec la croissance de nouvelles informations sur le Web, il est pratique et souvent nécessaire d'analyser cette quantité massive de données dans le contexte des données historiques. C'est là qu'intervient le modèle hybride.

Certains aspects du mariage de l'entrepôt de données avec le Big Data peuvent être relativement faciles. Par exemple, de nombreuses sources de données volumineuses proviennent de sources qui incluent leurs propres métadonnées bien conçues. Les sites de commerce électronique complexes comprennent des éléments de données bien définis. Par conséquent, lors de l'analyse entre l'entrepôt et la grande source de données, l'organisation de gestion de l'information travaille avec deux ensembles de données avec des modèles de métadonnées soigneusement conçus qui doivent être rationalisés.

Bien sûr, dans certaines situations, les sources d'information manquent de métadonnées explicites. Avant qu'un analyste puisse combiner les données transactionnelles historiques avec les grandes données moins structurées, le travail doit être fait. Typiquement, l'analyse initiale de pétaoctets de données révélera des modèles intéressants qui peuvent aider à prédire des changements subtils dans les affaires ou des solutions potentielles au diagnostic d'un patient.

L'analyse initiale peut être complétée en utilisant des outils tels que MapReduce avec la structure de système de fichiers distribué Hadoop. À ce stade, vous pouvez commencer à comprendre si elle est en mesure d'aider à évaluer le problème à résoudre.

Dans le processus d'analyse, il est tout aussi important d'éliminer les données inutiles que d'identifier les données pertinentes au contexte commercial. Lorsque cette phase est terminée, les données restantes doivent être transformées pour que les définitions de métadonnées soient précises. De cette façon, lorsque les grandes données sont combinées avec les données historiques traditionnelles de l'entrepôt, les résultats seront précis et significatifs.

Le lynchpin d'intégration de Big Data

Ce processus nécessite une stratégie d'intégration de données bien définie. Bien que l'intégration des données soit un élément essentiel de la gestion des mégadonnées, elle est tout aussi importante lors de la création d'une analyse hybride avec l'entrepôt de données. En fait, le processus d'extraction de données et de transformation dans un environnement hybride est très similaire à la façon dont ce processus est exécuté dans un entrepôt de données traditionnel.

Dans l'entrepôt de données, les données sont extraites des systèmes source traditionnels tels que les systèmes CRM ou ERP. Il est essentiel que les éléments de ces différents systèmes soient correctement appariés.

Repenser l'extraction, la transformation et les charges pour les entrepôts de données

Dans l'entrepôt de données, vous trouvez souvent une combinaison de tables de bases de données relationnelles, de fichiers plats et de sources non relationnelles. Un entrepôt de données bien construit sera conçu de manière à ce que les données soient converties dans un format commun, ce qui permettra de traiter les requêtes de manière précise et cohérente. Les fichiers extraits doivent être transformés pour correspondre aux règles métier et aux processus du domaine que l'entrepôt de données doit analyser.

En d'autres termes, les données doivent être extraites des sources de données volumineuses afin que ces sources puissent travailler ensemble en toute sécurité et produire des résultats significatifs. En outre, les sources doivent être transformées pour qu'elles soient utiles dans l'analyse de la relation entre les données historiques et les données plus dynamiques et en temps réel provenant de sources de données volumineuses.

Le chargement des informations dans le modèle Big Data sera différent de ce que vous attendez dans un entrepôt de données traditionnel. Avec les entrepôts de données, une fois les données codifiées, elles ne changent jamais. Un entrepôt de données typique fournira à l'entreprise un instantané des données en fonction de la nécessité d'analyser un problème commercial particulier nécessitant une surveillance, tel que l'inventaire ou les ventes.

La structure distribuée des mégadonnées amènera souvent les organisations à charger d'abord des données dans une série de nœuds, puis à effectuer l'extraction et la transformation. Lors de la création d'un hybride entre l'entrepôt de données traditionnel et l'environnement Big Data, la nature distribuée de l'environnement Big Data peut considérablement modifier la capacité des organisations à analyser d'énormes volumes de données dans le contexte de l'entreprise.