Vidéo: Hommage à Dame Nature 2024
Pig Latin est la langue des programmes Pig. Pig traduit le script Pig Latin en travaux MapReduce qui peuvent être exécutés dans le cluster Hadoop. En arrivant avec Pig Latin, l'équipe de développement a suivi trois principes de conception clés:
-
Keep it simple . Pig Latin fournit une méthode simplifiée pour interagir avec Java MapReduce. C'est une abstraction, en d'autres termes, qui simplifie la création de programmes parallèles sur le cluster Hadoop pour les flux de données et l'analyse. Les tâches complexes peuvent nécessiter une série de transformations de données interreliées - ces séries sont codées en tant que séquences de flux de données.
L'écriture de la transformation et du flux de données en tant que scripts Pig Latin au lieu des programmes Java MapReduce facilite l'écriture, la compréhension et la maintenance de ces programmes car a) vous n'avez pas besoin d'écrire le travail en Java, b) vous n'avez pas besoin de penser en termes de MapReduce, et c) vous n'avez pas besoin de créer un code personnalisé pour supporter les types de données riches.
Pig Latin fournit un langage plus simple pour exploiter votre cluster Hadoop, ce qui permet à plus de personnes de tirer parti de la puissance de Hadoop et de devenir plus productif plus rapidement.
-
Rendez-le intelligent. Vous vous souvenez peut-être que le compilateur Pig Latin fait le travail de transformer un programme Pig Latin en une série de travaux Java MapReduce. L'astuce consiste à s'assurer que le compilateur peut optimiser l'exécution de ces tâches Java MapReduce automatiquement, ce qui permet à l'utilisateur de se concentrer sur la sémantique plutôt que sur la façon d'optimiser et d'accéder aux données.
Pour vous, les types SQL, cette discussion vous semblera familière. SQL est configuré en tant que requête déclarative que vous utilisez pour accéder aux données structurées stockées dans un SGBDR. Le moteur SGBDR convertit d'abord la requête en une méthode d'accès aux données, puis examine les statistiques et génère une série d'approches d'accès aux données. L'optimiseur basé sur les coûts choisit l'approche la plus efficace pour l'exécution.
-
Ne limite pas le développement. Rendre Pig extensible afin que les développeurs puissent ajouter des fonctions pour résoudre leurs problèmes métier particuliers.
Les entrepôts de données RDBMS traditionnels utilisent le modèle de traitement des données ETL, où vous e extrayez des données de sources extérieures, t les modifiez pour répondre à vos besoins opérationnels, puis > l la cible finale, qu'il s'agisse d'un magasin de données opérationnel, d'un entrepôt de données ou d'une autre variante de base de données. Cependant, avec les données volumineuses, vous voulez généralement réduire la quantité de données que vous déplacez, de sorte que vous finissez par apporter le traitement aux données elles-mêmes.
Le langage pour les flux de données Pig prend donc un passage sur l'ancienne approche ETL, et va plutôt avec ELT:
E extraire les données de vos diverses sources, l oad dans HDFS, puis t le transforme au besoin pour préparer les données pour une analyse plus approfondie.