Couche 4 de la pile Big Data: entrepôts de données analytiques - mannequins

Vidéo: Dragnet: Brick-Bat Slayer / Tom Laval / Second-Hand Killer 2025

L'entrepôt de données, couche 4 de la grande pile de données, et son compagnon, le datamart, ont longtemps été les premières techniques utilisées par les organisations pour optimiser les données afin d'aider les décideurs. Généralement, les entrepôts de données et les magasins contiennent des données normalisées provenant de diverses sources et assemblées pour faciliter l'analyse de l'entreprise.

Les data warehouses et marts simplifient la création de rapports et la visualisation de données disparates. Ils sont généralement créés à partir de bases de données relationnelles, de bases de données multidimensionnelles, de fichiers plats et de bases de données d'objets - essentiellement n'importe quelle architecture de stockage. Dans un environnement traditionnel, où la performance peut ne pas être la plus haute priorité, le choix de la technologie sous-jacente est motivé par les exigences d'analyse, de reporting et de visualisation des données de l'entreprise.

L'organisation des données et leur préparation à l'analyse étant déterminantes, la plupart des implémentations d'entrepôt de données sont mises à jour via le traitement par lots. Le problème est que les entrepôts de données et les data marts chargés en lots peuvent être insuffisants pour de nombreuses applications de Big Data. Le stress imposé par les flux de données à grande vitesse exigera probablement une approche plus en temps réel des entrepôts de données volumineuses.

Cela ne signifie pas que vous ne créerez ni ne alimenterez un entrepôt de données analytique ou un magasin de données avec des traitements par lots. Au lieu de cela, vous pourriez vous retrouver avec plusieurs entrepôts de données ou magasins de données, et la performance et l'échelle reflèteront les exigences de temps des analystes et des décideurs.

Étant donné que de nombreux entrepôts de données et data marts sont composés de données provenant de diverses sources au sein d'une entreprise, les coûts associés au nettoyage et à la normalisation des données doivent également être pris en compte. Avec le big data, vous trouvez des différences importantes:

Les flux de données traditionnels (à partir de transactions, d'applications, etc.) peuvent produire beaucoup de données disparates.
Des douzaines de nouvelles sources de données existent également, chacune d'entre elles nécessitant un certain degré de manipulation avant d'être utile et opportune pour l'entreprise.
Les sources de contenu devront également être nettoyées, et celles-ci peuvent nécessiter des techniques différentes de celles que vous pourriez utiliser avec des données structurées.

Historiquement, les contenus des entrepôts de données et des data marts ont été organisés et livrés aux chefs d'entreprise en charge de la stratégie et de la planification. Avec le big data, un nouvel ensemble d'équipes tire parti des données pour la prise de décision.

De nombreuses implémentations Big Data fournissent des fonctionnalités en temps réel. Les entreprises doivent donc être en mesure de fournir du contenu pour permettre aux personnes ayant des rôles opérationnels de résoudre des problèmes de support client, de vente et de maintenance en temps quasi réel.De cette manière, le big data permet de déplacer l'action du back office vers le front office.

Les outils et techniques d'analyse existants seront très utiles pour donner un sens au Big Data. Cependant, il y a un hic. Les algorithmes qui font partie de ces outils doivent être capables de travailler avec de grandes quantités de données potentiellement en temps réel et disparates. L'infrastructure devra être en place pour soutenir cela.

Et les fournisseurs fournissant des outils d'analyse devront également s'assurer que leurs algorithmes fonctionnent à travers les implémentations distribuées. En raison de ces complexités, attendez-vous à ce qu'une nouvelle classe d'outils aide à comprendre le Big Data.

Il existe trois classes d'outils dans cette couche de l'architecture de référence. Ils peuvent être utilisés indépendamment ou collectivement par les décideurs pour aider à diriger l'entreprise. Les trois classes d'outils sont les suivantes:

Rapports et tableaux de bord: Ces outils fournissent un & ldquo; convivial et rdquo; représentation de l'information provenant de diverses sources. Bien que pilier dans le monde des données traditionnelles, ce domaine évolue toujours pour le big data. Certains des outils utilisés sont des outils traditionnels qui peuvent maintenant accéder aux nouveaux types de bases de données appelés collectivement NoSQL (Not Only SQL).
Visualisation: Ces outils constituent la prochaine étape de l'évolution du reporting. La production a tendance à être hautement interactive et dynamique. Une autre distinction importante entre les rapports et les résultats visualisés est l'animation. Les utilisateurs professionnels peuvent observer les modifications apportées aux données à l'aide de diverses techniques de visualisation, notamment des cartes mentales, des cartes thermiques, des infographies et des diagrammes de connexion. Le reporting et la visualisation ont lieu à la fin de l'activité.
Analyses et analyses avancées: Ces outils pénètrent dans l'entrepôt de données et traitent les données pour la consommation humaine. Les analyses avancées doivent expliquer les tendances ou les événements qui sont transformatifs, uniques ou révolutionnaires par rapport aux pratiques commerciales existantes. L'analyse prédictive et l'analyse des sentiments sont de bons exemples de cette science.