Vidéo: Hadoop&cie - 01 - Introduction à Hadoop 2024
Apache Oozie est inclus dans toutes les principales distributions Hadoop, y compris Apache Bigtop. Dans votre cluster Hadoop, installez le serveur Oozie sur un nœud périphérique, où vous exécuterez également d'autres applications clientes sur les données du cluster, comme illustré.
Les nœuds Edge sont conçus pour être une passerelle pour le réseau externe vers le cluster Hadoop. Cela les rend idéales pour les technologies de transfert de données (Flume, par exemple), mais aussi pour les applications client et d'autres infrastructures applicatives comme Oozie. Oozie n'a pas besoin de serveur dédié et peut facilement coexister avec d'autres services parfaitement adaptés aux nœuds périphériques, tels que Pig et Hive.
Après le déploiement d'Oozie, vous êtes prêt à démarrer le serveur Oozie. L'infrastructure d'Oozie est installée dans le répertoire $ OOZIE_HOME. De là, lancez le oozie-start. commande sh pour démarrer le serveur. (Comme vous pouvez vous y attendre, l'arrêt du serveur implique de taper oozie-stop.sh.) Vous pouvez tester l'état de votre instance Oozie en exécutant la commande
oozie admin -status
Après le déploiement et le démarrage du serveur Oozie, vous pouvez cataloguer et exécuter vos différents travaux de workflow, de coordinateur ou de regroupement. Lorsque vous travaillez avec vos travaux, Oozie stocke les définitions de catalogue - les données décrivant tous les objets Oozie (workflow, coordinator et bundle jobs) - ainsi que leurs états dans une base de données dédiée.
Par défaut, Oozie est configuré pour utiliser la base de données Derby intégrée, mais vous pouvez utiliser MySQL, Oracle ou PostgreSQL, si vous en avez besoin.
Vous avez quatre options pour interagir avec le serveur Oozie:
-
L'API Java: Cette option est utile dans les situations où vous avez votre propre code de programmation dans les applications Java, et vous devez contrôler l'exécution de votre Oozie workflows, coordinateurs ou bundles à partir de votre application.
-
L'API REST: Encore une fois, cette option fonctionne bien dans les cas où vous voulez utiliser votre propre code de programmation comme base de vos flux de travail, coordinateurs ou bundles Oozie, ou si vous Vous voulez créer votre propre interface ou en étendre une existante pour administrer le serveur Oozie.
-
Interface de ligne de commande (CLI): C'est l'interface de ligne de commande Linux traditionnelle pour Oozie.
-
La console Web Oozie: Bon, peut-être que vous ne pouvez pas interagir ici, mais la console Web d'Oozie vous donne une vue (en lecture seule) de l'état du serveur Oozie, qui est utile pour surveiller vos travaux Oozie.
Hue, une interface d'administration Hadoop, fournit un autre outil pour travailler avec Oozie.Les flux de travail Oozie, les coordinateurs et les bundles sont tous définis en utilisant XML, ce qui peut être fastidieux à éditer, en particulier pour les situations complexes. Hue fournit un outil de conception graphique pour créer graphiquement des flux de travail et d'autres objets Oozie.
Sous les couvertures, Oozie inclut un serveur Web Tomcat intégré, qui gère ses entrées et ses sorties.