Vidéo: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2025
Les workflows Oozie sont, à leur base, des graphes orientés, où vous pouvez définir des actions (applications Hadoop) et des flux de données, mais sans boucle. t définir une structure dans laquelle vous exécuterez une opération spécifique encore et encore jusqu'à ce que certaines conditions soient remplies (une boucle for, par exemple).
Les flux de travail Oozie sont assez flexibles en ce sens que vous pouvez définir des décisions basées sur des conditions et des chemins bifurqués pour une exécution parallèle. Vous pouvez également exécuter un large éventail d'actions.
Dans cette figure, vous voyez un workflow montrant les fonctionnalités de base des workflows Oozie. Tout d'abord, un script Pig est exécuté et est immédiatement suivi d'un arbre de décision. En fonction de l'état de la sortie, le flux de contrôle peut soit passer directement à une opération de fichier HDFS (Hadoop Distributed File System) (par exemple, une opération copyToLocal), soit à une action fork.
Si le flux de contrôle passe à l'action fork, deux jobs sont exécutés simultanément: un job MapReduce et une requête Hive. Le flux de contrôle passe ensuite à l'opération HDFS une fois que le travail MapReduce et la requête Hive sont terminés. Après l'opération HDFS, le flux de travail est terminé.
Les définitions de flux de travail Oozie sont écrites en XML, sur la base du schéma hPDL (Hadoop Process Definition Language). Ce schéma particulier est, à son tour, basé sur le schéma XPDL (XML Process Definition Language), qui est un standard indépendant du produit pour la modélisation des définitions de processus métier.
Un workflow Oozie est composé d'une série d'actions, codées par des nœuds XML. Il existe différents types de nœuds, représentant différents types d'actions ou de directives de flux de contrôle. Chaque flux de travail Oozie a son propre fichier XML, où chaque nœud et ses interconnexions sont définis.
Les nœuds de workflow requièrent tous des identifiants uniques, car ils servent à identifier le nœud suivant à traiter dans le workflow. Cela signifie que l'ordre dans lequel les actions sont exécutées dépend du noeud d'une action qui apparaît dans le flux de travail XML. Pour voir à quoi ressemblerait ce concept, consultez la liste suivante, qui montre un exemple de la structure de base du fichier XML d'un flux de production Oozie.
… … "Travail supprimé."
Dans cet exemple, à part les nœuds de début, de fin et de suppression, vous avez deux nœuds d'action. Chaque nœud d'action représente une application ou une commande en cours d'exécution.