Vidéo: A la découverte de notre si belle France .. 2024
"Simple" signifie souvent "élégant" quand il s'agit de ces dessins architecturaux pour cela nouveau manoir de Silicon Valley que vous avez planifié lorsque l'argent commence à couler après l'implémentation de Hadoop. Le même principe s'applique à l'architecture logicielle. Le cochon est composé de deux composants (count 'em, two):
-
Le langage lui-même: Preuve que les programmeurs ont le sens de l'humour, le langage de programmation de Pig est appelé Pig Latin, un langage de haut niveau. langage qui vous permet d'écrire des programmes de traitement et d'analyse de données.
-
Le compilateur Pig Latin: Le compilateur Pig Latin convertit le code Pig Latin en code exécutable. Le code exécutable est soit sous la forme de travaux MapReduce, soit il peut générer un processus dans lequel une instance Hadoop virtuelle est créée pour exécuter le code Pig sur un seul nœud.
La séquence des programmes MapReduce permet aux programmes Pig d'effectuer le traitement et l'analyse des données en parallèle, en exploitant Hadoop MapReduce et HDFS. L'exécution du travail Pig dans l'instance Hadoop virtuelle est une stratégie utile pour tester vos scripts Pig.
La figure montre comment Pig se rapporte à l'écosystème Hadoop.
Les programmes cochons peuvent s'exécuter sur MapReduce v1 ou MapReduce v2 sans aucune modification de code, quel que soit le mode d'exécution de votre cluster. Toutefois, les scripts Pig peuvent également être exécutés à l'aide de l'API Tez. Apache Tez fournit un cadre d'exécution plus efficace que MapReduce. YARN permet aux applications autres que MapReduce (comme Tez) de s'exécuter sur Hadoop. Hive peut aussi fonctionner contre le framework Tez.