Accueil Finances personnelles Le flux d'applications Pig Latin dans Hadoop - les mannequins

Le flux d'applications Pig Latin dans Hadoop - les mannequins

Vidéo: ОТ АТЕИСТА К СВЯТОСТИ 2025

Vidéo: ОТ АТЕИСТА К СВЯТОСТИ 2025
Anonim

À la base, Pig Latin est un langage de flux de données , dans lequel vous définissez un flux de données et une série de transformations appliquées aux données. grâce à votre application. Ceci est en contraste avec un langage de flux de contrôle (comme C ou Java), où vous écrivez une série d'instructions.

Dans les langages de flux de contrôle, vous utilisez des constructions telles que les boucles et la logique conditionnelle (comme une instruction if). Vous ne trouverez pas de boucles et si les déclarations en latin Pig.

Si vous avez besoin de convaincre que travailler avec Pig est beaucoup plus facile que de devoir écrire des programmes Map and Reduce, commencez par jeter un oeil à la vraie syntaxe de Pig:

A = LOAD 'fichier_données. SMS';. B = GROUPE …; … C = FILTRE …;. DUMP B;. STOCKER C INTO 'Résultats';

Une partie du texte de cet exemple ressemble à l'anglais, n'est-ce pas? Pas trop effrayant, au moins à ce stade. En regardant chaque ligne à son tour, vous pouvez voir le flux de base d'un programme Pig. (Notez que ce code peut faire partie d'un script ou être émis sur le shell interactif appelé Grunt.)

  1. Load: Vous chargez d'abord (LOAD) les données que vous voulez manipuler.

    Comme dans un travail MapReduce classique, ces données sont stockées dans HDFS. Pour qu'un programme Pig accède aux données, vous devez d'abord indiquer à Pig quel fichier ou quels fichiers utiliser. Pour cette tâche, vous utilisez la commande LOAD 'data_file'.

    Ici, 'data_file' peut spécifier un fichier HDFS ou un répertoire. Si un répertoire est spécifié, tous les fichiers de ce répertoire sont chargés dans le programme.

    Si les données sont stockées dans un format de fichier qui n'est pas nativement accessible à Pig, vous pouvez éventuellement ajouter la fonction USING à l'instruction LOAD pour spécifier une fonction définie par l'utilisateur qui peut lire (et interpréter) les données.

  2. Transformation: vous exécutez les données à travers un ensemble de transformations qui, bien au-dessous du capuchon et loin de tout ce qui vous concerne, sont traduites en un ensemble de tâches Map et Reduce.

    La logique de transformation est l'endroit où toutes les manipulations de données ont lieu. Ici, vous pouvez FILTRER des lignes qui ne vous intéressent pas, JOINDRE deux ensembles de fichiers de données, des données GROUP pour construire des agrégations, ORDER des résultats, et faire beaucoup, beaucoup plus.

  3. Dump: Enfin, vous sauvegardez (DUMP) les résultats sur l'écran

    ou

    Store (STORE) les résultats dans un fichier quelque part.

    Vous utiliseriez généralement la commande DUMP pour envoyer la sortie à l'écran lorsque vous déboguez vos programmes. Lorsque votre programme passe en production, il vous suffit de remplacer l'appel DUMP par un appel STORE afin que les résultats de l'exécution de vos programmes soient stockés dans un fichier pour traitement ultérieur ou analyse.

Le flux d'applications Pig Latin dans Hadoop - les mannequins

Le choix des éditeurs

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Windows, avec un W majuscule, tire son nom de sa caractéristique principale: Windows, avec un w minuscule. Se familiariser avec Windows signifie apprendre à ouvrir, fermer, redimensionner, déplacer et basculer entre les fenêtres, ce qui est la clé pour jongler avec succès avec plusieurs activités. Chaque programme que vous exécutez occupe sa propre fenêtre. Une fenêtre peut occuper une partie de ...

Comment accepter ou rejeter les cookies dans Safari - dummies

Comment accepter ou rejeter les cookies dans Safari - dummies

Un cookie est un petit fichier qu'un site Web enregistre automatiquement sur le disque dur de votre Mac. Il contient des informations, telles que vos préférences ou votre date de naissance, que le site utilisera lors de vos prochaines visites. Dans Mac OS X Snow Leopard, Safari vous permet de choisir d'accepter ou non tous les cookies ...

Le choix des éditeurs

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Pour créer une boîte ou une ligne dans QuarkXPress plus complexe qu'un simple rectangle, ovale ou starburst, vous entrez dans le domaine du chemin de Bézier. Si vous avez utilisé l'outil Plume dans Adobe Illustrator ou Photoshop, vous comprenez déjà les chemins de Bézier. Il faut un peu de pratique et un esprit détendu ...

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Le choix des éditeurs

Les connexions cachées sur le Nikon D5600 - les nuls

Les connexions cachées sur le Nikon D5600 - les nuls

Ouvrent les couvercles sur les côtés gauche et droit du Nikon D5600 caméra, et vous verrez plusieurs ports de connexions cachées. Les ports de connexion suivants sont indiqués sur cette image: Terminal d'accessoires: ce terminal accepte les accessoires suivants: câble déclencheur à distance Nikon MC-DC2; Télécommandes sans fil WR-1 et WR-R10; et les unités GPS GP-1 / GP-1A. I ...

Les connexions cachées sur votre Nikon D5200 - les nuls

Les connexions cachées sur votre Nikon D5200 - les nuls

ÉParpillés sur l'extérieur de votre appareil photo sont nombreuses commandes que vous utilisez pour changer d'image -prend des paramètres, revoir et modifier vos photos, et effectuer diverses autres opérations. Caché sous le couvercle sur le côté gauche de la caméra, vous trouverez les quatre ports de connexion suivants, étiquetés dans cette figure: Borne accessoire: Vous pouvez brancher le Nikon en option ...

Des boutons et autres commandes du Nikon D7500 - mannequins

Des boutons et autres commandes du Nikon D7500 - mannequins

C'est génial d'avoir une carte pour le boutons et commandes sur votre appareil photo, mais ce n'est pas beaucoup d'aide si vous ne pouvez pas vous rappeler quel bouton appuyer sur quand (et pourquoi). Alors, voici un aperçu des fonctions des contrôles les plus importants. (Certains contrôles ont des fonctions supplémentaires pendant certaines opérations, mais la table ...