Accueil Finances personnelles Hadoop en tant que moteur de prétraitement des données - les nuls

Hadoop en tant que moteur de prétraitement des données - les nuls

Vidéo: Rob Thomas, IBM | Think 2018 2025

Vidéo: Rob Thomas, IBM | Think 2018 2025
Anonim

L'un des premiers cas d'utilisation de Hadoop dans l'entreprise était un moteur de transformation programmatique utilisé pour prétraiter les données liées à un entrepôt de données. Essentiellement, ce cas d'utilisation tire parti de la puissance de l'écosystème Hadoop pour manipuler et appliquer des transformations aux données avant il est chargé dans un entrepôt de données.

Bien que le moteur de transformation actuel soit nouveau (c'est Hadoop, donc les transformations et les flux de données sont codés dans Pig ou MapReduce, entre autres langues), l'approche elle-même a été utilisée avec les processus Extract, Transform, Load (ETL).

Pensez à l'évolution des bases de données OLTP et ROLAP. De nombreuses organisations disposant de bases de données opérationnelles ont également déployé des entrepôts de données. Comment les services informatiques peuvent-ils extraire les données de leurs bases de données opérationnelles dans leurs entrepôts de données? (Rappelez-vous que les données opérationnelles ne sont généralement pas sous une forme qui se prête à l'analyse.)

La réponse est ETL, et à mesure que l'utilisation et l'importance des entrepôts de données augmentaient, les étapes du processus devenaient bien comprises. développé. En outre, un certain nombre de sociétés de logiciels ont commencé à proposer des solutions ETL intéressantes afin que les départements informatiques puissent minimiser leur propre développement de code personnalisé.

Le processus ETL de base est assez simple: vous E extrayez des données d'une base de données opérationnelle, T les transformez en la forme dont vous avez besoin pour votre analyse et outils de reporting, puis vous L ajoutez ces données dans votre entrepôt de données.

Une variante commune à ETL est ELT - Extract, Load et Transform. Dans le processus ELT, vous effectuez des transformations (contrairement à ETL) après en chargeant les données dans le référentiel cible. Cette approche est souvent utilisée lorsque la transformation bénéficie grandement d'un moteur de traitement SQL très rapide sur des données structurées. (Les bases de données relationnelles peuvent ne pas exceller dans le traitement des données non structurées, mais elles effectuent un traitement très rapide des données structurées - devinez quoi? -.)

Si les données que vous transformez sont destinées à un entrepôt de données et que plusieurs de ces transformations peuvent être effectuées en SQL, vous pouvez choisir d'exécuter les transformations dans l'entrepôt de données lui-même. L'ELT est particulièrement attrayante si l'essentiel de vos compétences réside dans l'outillage basé sur SQL.

Hadoop étant désormais en mesure de traiter les requêtes SQL, les charges de travail ETL et ELT peuvent être hébergées sur Hadoop. La figure montre les services ETL ajoutés à l'architecture de référence.

Si vous avez déployé une zone d'atterrissage basée sur Hadoop, vous disposez de presque tout ce dont vous avez besoin pour utiliser Hadoop comme moteur de transformation.Vous envoyez déjà des données de vos systèmes opérationnels dans Hadoop à l'aide de Sqoop, qui couvre l'étape d'extraction. À ce stade, vous devrez implémenter votre logique de transformation dans les applications MapReduce ou Pig. Une fois les données transformées, vous pouvez charger les données dans l'entrepôt de données à l'aide de Sqoop.

L'utilisation de Hadoop comme moteur de transformation de données augmente également les possibilités. Si votre entrepôt de données ne modifie pas ses données (uniquement pour les rapports), vous pouvez simplement conserver les données que vous générez avec le processus de transformation. Dans ce modèle, les données ne circulent que de gauche à droite sur la figure, où les données sont extraites des bases de données opérationnelles, transformées dans la zone de réception, puis chargées dans l'entrepôt de données.

Avec toutes les données transformées déjà dans la zone d'atterrissage, il n'est pas nécessaire de le recopier dans Hadoop - à moins, bien sûr, que les données ne soient modifiées dans l'entrepôt.

Hadoop en tant que moteur de prétraitement des données - les nuls

Le choix des éditeurs

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Windows, avec un W majuscule, tire son nom de sa caractéristique principale: Windows, avec un w minuscule. Se familiariser avec Windows signifie apprendre à ouvrir, fermer, redimensionner, déplacer et basculer entre les fenêtres, ce qui est la clé pour jongler avec succès avec plusieurs activités. Chaque programme que vous exécutez occupe sa propre fenêtre. Une fenêtre peut occuper une partie de ...

Comment accepter ou rejeter les cookies dans Safari - dummies

Comment accepter ou rejeter les cookies dans Safari - dummies

Un cookie est un petit fichier qu'un site Web enregistre automatiquement sur le disque dur de votre Mac. Il contient des informations, telles que vos préférences ou votre date de naissance, que le site utilisera lors de vos prochaines visites. Dans Mac OS X Snow Leopard, Safari vous permet de choisir d'accepter ou non tous les cookies ...

Le choix des éditeurs

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Pour créer une boîte ou une ligne dans QuarkXPress plus complexe qu'un simple rectangle, ovale ou starburst, vous entrez dans le domaine du chemin de Bézier. Si vous avez utilisé l'outil Plume dans Adobe Illustrator ou Photoshop, vous comprenez déjà les chemins de Bézier. Il faut un peu de pratique et un esprit détendu ...

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Le choix des éditeurs

Les connexions cachées sur le Nikon D5600 - les nuls

Les connexions cachées sur le Nikon D5600 - les nuls

Ouvrent les couvercles sur les côtés gauche et droit du Nikon D5600 caméra, et vous verrez plusieurs ports de connexions cachées. Les ports de connexion suivants sont indiqués sur cette image: Terminal d'accessoires: ce terminal accepte les accessoires suivants: câble déclencheur à distance Nikon MC-DC2; Télécommandes sans fil WR-1 et WR-R10; et les unités GPS GP-1 / GP-1A. I ...

Les connexions cachées sur votre Nikon D5200 - les nuls

Les connexions cachées sur votre Nikon D5200 - les nuls

ÉParpillés sur l'extérieur de votre appareil photo sont nombreuses commandes que vous utilisez pour changer d'image -prend des paramètres, revoir et modifier vos photos, et effectuer diverses autres opérations. Caché sous le couvercle sur le côté gauche de la caméra, vous trouverez les quatre ports de connexion suivants, étiquetés dans cette figure: Borne accessoire: Vous pouvez brancher le Nikon en option ...

Des boutons et autres commandes du Nikon D7500 - mannequins

Des boutons et autres commandes du Nikon D7500 - mannequins

C'est génial d'avoir une carte pour le boutons et commandes sur votre appareil photo, mais ce n'est pas beaucoup d'aide si vous ne pouvez pas vous rappeler quel bouton appuyer sur quand (et pourquoi). Alors, voici un aperçu des fonctions des contrôles les plus importants. (Certains contrôles ont des fonctions supplémentaires pendant certaines opérations, mais la table ...