Accueil Finances personnelles Hadoop en tant que moteur de prétraitement des données - les nuls

Hadoop en tant que moteur de prétraitement des données - les nuls

Vidéo: Rob Thomas, IBM | Think 2018 2025

Vidéo: Rob Thomas, IBM | Think 2018 2025
Anonim

L'un des premiers cas d'utilisation de Hadoop dans l'entreprise était un moteur de transformation programmatique utilisé pour prétraiter les données liées à un entrepôt de données. Essentiellement, ce cas d'utilisation tire parti de la puissance de l'écosystème Hadoop pour manipuler et appliquer des transformations aux données avant il est chargé dans un entrepôt de données.

Bien que le moteur de transformation actuel soit nouveau (c'est Hadoop, donc les transformations et les flux de données sont codés dans Pig ou MapReduce, entre autres langues), l'approche elle-même a été utilisée avec les processus Extract, Transform, Load (ETL).

Pensez à l'évolution des bases de données OLTP et ROLAP. De nombreuses organisations disposant de bases de données opérationnelles ont également déployé des entrepôts de données. Comment les services informatiques peuvent-ils extraire les données de leurs bases de données opérationnelles dans leurs entrepôts de données? (Rappelez-vous que les données opérationnelles ne sont généralement pas sous une forme qui se prête à l'analyse.)

La réponse est ETL, et à mesure que l'utilisation et l'importance des entrepôts de données augmentaient, les étapes du processus devenaient bien comprises. développé. En outre, un certain nombre de sociétés de logiciels ont commencé à proposer des solutions ETL intéressantes afin que les départements informatiques puissent minimiser leur propre développement de code personnalisé.

Le processus ETL de base est assez simple: vous E extrayez des données d'une base de données opérationnelle, T les transformez en la forme dont vous avez besoin pour votre analyse et outils de reporting, puis vous L ajoutez ces données dans votre entrepôt de données.

Une variante commune à ETL est ELT - Extract, Load et Transform. Dans le processus ELT, vous effectuez des transformations (contrairement à ETL) après en chargeant les données dans le référentiel cible. Cette approche est souvent utilisée lorsque la transformation bénéficie grandement d'un moteur de traitement SQL très rapide sur des données structurées. (Les bases de données relationnelles peuvent ne pas exceller dans le traitement des données non structurées, mais elles effectuent un traitement très rapide des données structurées - devinez quoi? -.)

Si les données que vous transformez sont destinées à un entrepôt de données et que plusieurs de ces transformations peuvent être effectuées en SQL, vous pouvez choisir d'exécuter les transformations dans l'entrepôt de données lui-même. L'ELT est particulièrement attrayante si l'essentiel de vos compétences réside dans l'outillage basé sur SQL.

Hadoop étant désormais en mesure de traiter les requêtes SQL, les charges de travail ETL et ELT peuvent être hébergées sur Hadoop. La figure montre les services ETL ajoutés à l'architecture de référence.

Si vous avez déployé une zone d'atterrissage basée sur Hadoop, vous disposez de presque tout ce dont vous avez besoin pour utiliser Hadoop comme moteur de transformation.Vous envoyez déjà des données de vos systèmes opérationnels dans Hadoop à l'aide de Sqoop, qui couvre l'étape d'extraction. À ce stade, vous devrez implémenter votre logique de transformation dans les applications MapReduce ou Pig. Une fois les données transformées, vous pouvez charger les données dans l'entrepôt de données à l'aide de Sqoop.

L'utilisation de Hadoop comme moteur de transformation de données augmente également les possibilités. Si votre entrepôt de données ne modifie pas ses données (uniquement pour les rapports), vous pouvez simplement conserver les données que vous générez avec le processus de transformation. Dans ce modèle, les données ne circulent que de gauche à droite sur la figure, où les données sont extraites des bases de données opérationnelles, transformées dans la zone de réception, puis chargées dans l'entrepôt de données.

Avec toutes les données transformées déjà dans la zone d'atterrissage, il n'est pas nécessaire de le recopier dans Hadoop - à moins, bien sûr, que les données ne soient modifiées dans l'entrepôt.

Hadoop en tant que moteur de prétraitement des données - les nuls

Le choix des éditeurs

Comment créer et éditer des tableaux dans AutoCAD 2014 - mannequins

Comment créer et éditer des tableaux dans AutoCAD 2014 - mannequins

AutoCAD 2014 vous fournit avec bonheur la TABLE commande pour vos besoins de table. Après avoir créé un style de tableau approprié, l'ajout d'une table à un dessin est facile, avec la commande TABLE. Voici comment: Définir un courant de couche approprié. En supposant que vous laissez la couleur, le type de ligne et le poids de ligne définis sur ByLayer, le calque courant est ...

Comment créer et restaurer une vue nommée dans AutoCAD 2014 - les nuls

Comment créer et restaurer une vue nommée dans AutoCAD 2014 - les nuls

Si vous avez plusieurs fois Pour effectuer un zoom et effectuer un panoramique sur la même zone dans AutoCAD 2014, vous pouvez rapidement voir ce que vous voulez en utilisant une vue nommée. Après avoir nommé et enregistré une vue d'une zone particulière d'un dessin, vous pouvez revenir rapidement à cette zone en restaurant la vue. Vous utilisez ...

Comment créer un nouveau dessin à partir d'un dessin de modèle dans AutoCAD 2014 - les nuls

Comment créer un nouveau dessin à partir d'un dessin de modèle dans AutoCAD 2014 - les nuls

Lorsque vous démarrez dans l'espace de travail Drafting & Annotation ou dans l'ancien espace de travail AutoCAD Classic, AutoCAD 2014 crée un nouveau dessin vide configuré pour le dessin 2D. Selon l'endroit où vous vivez (votre pays, pas votre adresse postale!) Et le système de mesure dominant utilisé, AutoCAD basera ce nouveau dessin sur l'un des ...

Le choix des éditeurs

Automatiser les contrôles de sécurité du courrier électronique pour empêcher les piratages par courrier électronique - dummies

Automatiser les contrôles de sécurité du courrier électronique pour empêcher les piratages par courrier électronique - dummies

Le courrier électronique est un point d'entrée commun pour les attaques de piratage sur tous les types de systèmes - Windows, Linux, Unix - vous l'appelez. Vous pouvez implémenter les contre-mesures suivantes en tant que couche de sécurité supplémentaire pour vos systèmes de messagerie: Tarpitting: Tarpitting détecte les messages entrants destinés à des utilisateurs inconnus. Si votre serveur de messagerie prend en charge le tarpitting, il peut ...

ÉValue les vulnérabilités avec Hacks éthiques - mannequins

ÉValue les vulnérabilités avec Hacks éthiques - mannequins

Si vous trouvez des failles de sécurité potentielles, la prochaine étape consiste à confirmer vulnérabilités dans votre système ou votre réseau. Avant de tester, effectuez une recherche manuelle. Vous pouvez rechercher des babillards hackers, des sites Web et des bases de données de vulnérabilités, telles que: Common Vulnerabilities and Exposures Base de données de vulnérabilités US-CERT NIST National Vulnerability Database Ces sites répertorient les ...

Authentification des utilisateurs VPN Enterprise Mobile - Mannequins

Authentification des utilisateurs VPN Enterprise Mobile - Mannequins

Avant d'autoriser l'accès au réseau d'entreprise à partir de n'importe quel appareil mobile , vous devez d'abord identifier l'utilisateur. Un type de validation d'identité d'utilisateur est l'authentification. L'authentification de l'utilisateur est la validation qu'un utilisateur est vraiment ce qu'elle dit être. En d'autres termes, l'authentification de l'utilisateur prouve que la personne qui tente de se connecter à ...

Le choix des éditeurs

Pourquoi Word Knowledge est important pour ASVAB - mannequins

Pourquoi Word Knowledge est important pour ASVAB - mannequins

Mot La connaissance ne fait pas partie de l'ASVAB juste parce que l'armée aime utiliser de grands mots. C'est inclus parce que les mots représentent des idées, et plus vous comprenez de mots, plus vous pouvez comprendre d'idées (et mieux vous pouvez communiquer avec les autres). Un vocabulaire décent est essentiel dans l'armée si vous voulez ...

Comprendre le Big Four sur l'ASVAB: vos scores AFQT - les nuls

Comprendre le Big Four sur l'ASVAB: vos scores AFQT - les nuls

L'ASVAB pas de score global. Quand vous entendez quelqu'un dire: «J'ai un 80 sur mon ASVAB», cette personne parle du score du test de qualification des forces armées (AFQT), pas un score global ASVAB. Le score AFQT détermine si vous pouvez même vous enrôler dans l'armée, et seulement quatre des sous-tests ...