L'option de prétraitement des données hybrides dans Hadoop - des mannequins

Vidéo: 4.3 Hazardous Waste Management 2025

En plus d'avoir à stocker de plus gros volumes de données froides, Les entrepôts de données traditionnels utilisent des quantités croissantes de ressources de traitement pour les charges de travail de transformation (ELT).

L'idée d'utiliser Hadoop comme moteur de prétraitement pour gérer la transformation des données permet de libérer de précieux cycles de traitement, ce qui permet à l'entrepôt de données de répondre à son objectif initial: Répondre aux questions métier répétées pour prendre en charge les applications analytiques. Encore une fois, vous voyez comment Hadoop peut compléter les déploiements traditionnels d'entrepôts de données et améliorer leur productivité.

Peut-être qu'une petite ampoule imaginaire vous a-t-elle illuminé et vous vous dites: "Hé, peut-être sont-ils des tâches de transformation parfaitement adaptées à la capacité de traitement des données, mais je sais aussi qu'il y a beaucoup de travail de transformation dans les tâches algébriques, étape par étape, où l'exécution de SQL sur un moteur de base de données relationnelle serait le meilleur choix. Ne serait-ce pas cool si je pouvais utiliser SQL sur Hadoop? "

SQL sur Hadoop est déjà là. Avec la possibilité d'émettre des requêtes SQL sur des données dans Hadoop, vous n'êtes pas limité à une approche ETL de vos flux de données. Vous pouvez également déployer des applications de type ELT.

Une autre approche hybride à prendre en compte est de savoir où exécuter votre logique de transformation: dans Hadoop ou dans l'entrepôt de données? Bien que certaines entreprises soient préoccupées par l'exécution de tout sauf analytique dans leurs entrepôts, il n'en demeure pas moins que les bases de données relationnelles sont excellentes pour l'exécution de SQL et pourraient être un endroit plus pratique pour exécuter une transformation que Hadoop.