Accueil Finances personnelles Hadoop en tant que moteur de prétraitement des données - les nuls

Hadoop en tant que moteur de prétraitement des données - les nuls

Vidéo: Rob Thomas, IBM | Think 2018 2024

Vidéo: Rob Thomas, IBM | Think 2018 2024
Anonim

L'un des premiers cas d'utilisation de Hadoop dans l'entreprise était un moteur de transformation programmatique utilisé pour prétraiter les données liées à un entrepôt de données. Essentiellement, ce cas d'utilisation tire parti de la puissance de l'écosystème Hadoop pour manipuler et appliquer des transformations aux données avant il est chargé dans un entrepôt de données.

Bien que le moteur de transformation actuel soit nouveau (c'est Hadoop, donc les transformations et les flux de données sont codés dans Pig ou MapReduce, entre autres langues), l'approche elle-même a été utilisée avec les processus Extract, Transform, Load (ETL).

Pensez à l'évolution des bases de données OLTP et ROLAP. De nombreuses organisations disposant de bases de données opérationnelles ont également déployé des entrepôts de données. Comment les services informatiques peuvent-ils extraire les données de leurs bases de données opérationnelles dans leurs entrepôts de données? (Rappelez-vous que les données opérationnelles ne sont généralement pas sous une forme qui se prête à l'analyse.)

La réponse est ETL, et à mesure que l'utilisation et l'importance des entrepôts de données augmentaient, les étapes du processus devenaient bien comprises. développé. En outre, un certain nombre de sociétés de logiciels ont commencé à proposer des solutions ETL intéressantes afin que les départements informatiques puissent minimiser leur propre développement de code personnalisé.

Le processus ETL de base est assez simple: vous E extrayez des données d'une base de données opérationnelle, T les transformez en la forme dont vous avez besoin pour votre analyse et outils de reporting, puis vous L ajoutez ces données dans votre entrepôt de données.

Une variante commune à ETL est ELT - Extract, Load et Transform. Dans le processus ELT, vous effectuez des transformations (contrairement à ETL) après en chargeant les données dans le référentiel cible. Cette approche est souvent utilisée lorsque la transformation bénéficie grandement d'un moteur de traitement SQL très rapide sur des données structurées. (Les bases de données relationnelles peuvent ne pas exceller dans le traitement des données non structurées, mais elles effectuent un traitement très rapide des données structurées - devinez quoi? -.)

Si les données que vous transformez sont destinées à un entrepôt de données et que plusieurs de ces transformations peuvent être effectuées en SQL, vous pouvez choisir d'exécuter les transformations dans l'entrepôt de données lui-même. L'ELT est particulièrement attrayante si l'essentiel de vos compétences réside dans l'outillage basé sur SQL.

Hadoop étant désormais en mesure de traiter les requêtes SQL, les charges de travail ETL et ELT peuvent être hébergées sur Hadoop. La figure montre les services ETL ajoutés à l'architecture de référence.

Si vous avez déployé une zone d'atterrissage basée sur Hadoop, vous disposez de presque tout ce dont vous avez besoin pour utiliser Hadoop comme moteur de transformation.Vous envoyez déjà des données de vos systèmes opérationnels dans Hadoop à l'aide de Sqoop, qui couvre l'étape d'extraction. À ce stade, vous devrez implémenter votre logique de transformation dans les applications MapReduce ou Pig. Une fois les données transformées, vous pouvez charger les données dans l'entrepôt de données à l'aide de Sqoop.

L'utilisation de Hadoop comme moteur de transformation de données augmente également les possibilités. Si votre entrepôt de données ne modifie pas ses données (uniquement pour les rapports), vous pouvez simplement conserver les données que vous générez avec le processus de transformation. Dans ce modèle, les données ne circulent que de gauche à droite sur la figure, où les données sont extraites des bases de données opérationnelles, transformées dans la zone de réception, puis chargées dans l'entrepôt de données.

Avec toutes les données transformées déjà dans la zone d'atterrissage, il n'est pas nécessaire de le recopier dans Hadoop - à moins, bien sûr, que les données ne soient modifiées dans l'entrepôt.

Hadoop en tant que moteur de prétraitement des données - les nuls

Le choix des éditeurs

Utilisant le mode rafale: La photographie d'action des mannequins

Utilisant le mode rafale: La photographie d'action des mannequins

Canon EOS Rebel T1i / 500D nécessite un vitesse d'obturation rapide - et un doigt de déclenchement rapide. Heureusement, le Canon EOS Digital Rebel a un mode Drive (ou Burst), qui enregistre une série continue d'images tant que vous maintenez le bouton de l'obturateur enfoncé. Si vous voulez obtenir de superbes photos d'un sujet en mouvement rapide, le mode Drive ...

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

En utilisant le mode en direct (détection de visage) sur votre Canon EOS Rebel T6 / 1300

Lorsque vous activez ce mode, le Rebel T6 recherche les visages dans le cadre. Vous devrez peut-être appuyer brièvement sur le déclencheur pour réactiver l'appareil photo avant que la fonction de détection de visage ne s'enclenche. Si un visage est détecté, l'appareil photo affiche un cadre de mise au point sur le visage, comme indiqué sur ...

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

En utilisant les modes automatiques sur votre Canon EOS Rebel T3 / 1100D - mannequins

Pour le plus automatique de la photographie automatique, permettant aux personnes ayant une expérience minimale de capturer de belles images, réglez votre sélecteur de mode Canon EOS Rebel T3 / 1100D sur l'un des deux paramètres suivants: Auto complet: Le nom de ce mode, indiqué dans la figure suivante, indique que le l'appareil photo prend le contrôle total de toutes les expositions, luminosité, flash, ...

Le choix des éditeurs

5 Bons contrôles comptables qui minimisent le vol - les nuls

5 Bons contrôles comptables qui minimisent le vol - les nuls

Voici un résumé de cinq techniques puissantes pour minimiser les problèmes surgissez lorsque vous avez des personnes ayant des niveaux de compétence et de fiabilité différents qui travaillent avec vos données QuickBooks: Comparez régulièrement les inventaires physiques avec les enregistrements de comptabilité d'inventaire. Une des choses que vous pouvez faire, à la fois pour minimiser vos pertes d'inventaire et ...

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

6 Astuces pour utiliser la stratégie avec QuickBooks - les nuls

Si vous utilisez QuickBooks pour vous aider à mettre en place une stratégie pratique, il y a quelques choses que vous pourriez vouloir considérer. Assurez-vous de bien comprendre ces points clés: Connaissez les trois stratégies. Habituellement, une entreprise ne peut avoir qu'une stratégie commerciale sur trois: Stratégie basée sur les coûts Stratégie basée sur la différenciation Stratégie axée sur les objectifs Choisissez une stratégie. ...

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

5 Astuces pour simplifier l'installation de QuickBooks 2014 - les nuls

Si vous êtes une petite entreprise configurant QuickBooks Logiciel de comptabilité 2014, vous apprécierez ces cinq conseils utiles. Minimisez le processus d'installation de QuickBooks avec ces astuces et techniques, et vous obtiendrez une conclusion rapide et réussie. Astuce # 1 de QuickBooks: Convertir en QuickBooks à compter du 1er janvier Convertir en un nouveau système de comptabilité dès le début ...

Le choix des éditeurs

Logique Puzzles pour garder votre esprit net - les mannequins

Logique Puzzles pour garder votre esprit net - les mannequins

Mettent votre casse-tête pour résoudre ces énigmes logiques! Chacun a juste une réponse. Les niveaux sont faciles, délicats, durs et traîtres, «facile» étant (bien sûr) les puzzles les plus faciles, et «traître» étant les plus difficiles. Facile: Combien de fois un mathématicien peut-il soustraire dix de 100? Facile: Déchiffrez cet indice: YYYMEN Tricky: Une femme ...

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Maintien de la stabilité de l'humeur dans les troubles bipolaires - mannequins

Plan thérapeutique global qu'une personne atteinte de trouble bipolaire doit suivre et maintenir la stabilité de l'humeur est assez simple. Suivez ce plan de traitement: Prenez vos médicaments tels que prescrits, même lorsque vous vous sentez bien, et consultez votre médecin avant de faire des changements de médicaments. Établir des routines qui assurent un horaire régulier de veille-sommeil. Manque de qualité ...

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

Faire un pré-accord pour recevoir un traitement pour trouble bipolaire - les variables nominales

En pleine Manie ou dépression, une personne peut ne pas penser assez clairement pour se faire soigner et peut même refuser le traitement nécessaire. Les êtres chers veulent faire ce qu'il y a de mieux, mais ils hésitent souvent, ne sachant pas quand intervenir et quoi faire. Devraient-ils appeler votre médecin ou votre thérapeute ou vous conduire?