Vidéo: Hive Project Price Prediction 2024
Le premier client Hive est l'interface de ligne de commande Hive (CLI). Pour maîtriser les points plus fins du client CLI Hive, il peut être utile de revoir l'architecture Hive (plutôt occupée).
Dans la deuxième figure, l'architecture est rationalisée pour se concentrer uniquement sur les composants requis lors de l'exécution de l'interface de ligne de commande.
Ce sont les composants de Hive nécessaires lors de l'exécution de l'interface CLI sur un cluster Hadoop. Ici, vous exécutez Hive en mode local, qui utilise le stockage local, plutôt que le HDFS, pour vos données.
Pour exécuter l'interface de ligne de commande Hive, exécutez la commande hive et spécifiez l'interface de ligne de commande en tant que service que vous souhaitez exécuter. Dans la liste suivante, vous pouvez voir la commande requise ainsi que certaines de nos premières instructions HiveQL. (Une annotation d'étapes utilisant le modèle A-B-C est incluse dans la liste pour attirer votre attention sur les raccourcis clavier.)
(A) $ $ HIVE_HOME / bin ruche --service cli (B) ruche> définir ruche. cli. impression. actuel. db = vrai; (C) ruche (par défaut)> CREATE DATABASE ourfirstdatabase; OK Durée prise: 3. 756 secondes (D) ruche (par défaut)> USE ourfirstdatabase; OK Durée prise: 0. 039 secondes (E) ruche (ourfirstdatabase)> CREATE TABLE our_first_table (> Prénom STRING,> LastName STRING,> EmployeeId INT); OK Temps pris: 0. 043 secondes hive (ourfirstdatabase)> quitter; (F) $ ls / home / biadmin / Hive / entrepôt / notre première base de données. db our_first_table
La première commande (voir étape A) démarre l'interface de ligne de commande Hive à l'aide de la variable d'environnement $ HIVE_HOME. L'option de ligne de commande -service cli indique au système Hive de démarrer l'interface de ligne de commande, bien que vous ayez pu choisir d'autres serveurs.
Ensuite, à l'étape B, vous indiquez à l'interface de ligne de commande Hive d'imprimer votre base de données active afin de savoir où vous vous situez dans l'espace de noms. (Cette instruction aura du sens après que nous aurons expliqué comment utiliser la commande suivante, alors tenez-vous bien.)
Dans l'étape C, vous utilisez le langage de définition de données (DDL) de HiveQL pour créer votre première base de données. (Rappelez-vous que les bases de données dans Hive sont simplement des espaces de noms où résident des tables particulières, car un ensemble de tables peut être considéré comme une base de données ou un schéma, vous pourriez avoir utilisé le terme SCHEMA à la place de DATABASE).
Plus précisément, vous utilisez DDL pour indiquer au système de créer une base de données appelée ourfirstdatabase, puis de faire de cette base de données la valeur par défaut des commandes DDL HiveQL suivantes à l'aide de la commande USE à l'étape D. table et donnez-lui le nom (tout à fait approprié) our_first_table.
(Jusqu'à présent, vous pensiez que cela ressemblait beaucoup à SQL, avec peut-être quelques différences mineures de syntaxe selon le SGBDR auquel vous êtes habitué - et vous auriez eu raison.) La dernière commande, en L'étape F exécute une liste de répertoires de votre répertoire d'entrepôt Hive choisi afin que vous puissiez voir que our_first_table a bien été stocké sur le disque.
Vous définissez la ruche. métastore. entrepôt. La variable dir pointe vers le répertoire local / home / biadmin / Hive / warehouse dans votre machine virtuelle Linux plutôt que d'utiliser HDFS comme vous le feriez sur un cluster Hadoop approprié.
Après avoir créé une table, il est intéressant de voir les métadonnées de la table. Dans les environnements de production, vous pouvez avoir des dizaines de tables ou plus, il est donc utile de pouvoir revoir la structure de la table de temps en temps. Vous c et utilisez une commande HiveQL pour cela à l'aide de l'interface de ligne de commande Hive, mais le serveur Hive Web Interface (HWI) fournit une interface utile pour ce type d'opération.
L'utilisation du serveur HWI au lieu de l'interface de ligne de commande peut également être plus sécurisée. Une attention particulière doit être portée lors de l'utilisation de l'interface de ligne de commande dans les environnements de production car la machine qui exécute l'interface de ligne de commande doit avoir accès à l'ensemble du cluster Hadoop.
Par conséquent, les administrateurs système mettent généralement en place des outils tels que le shell sécurisé (ssh) afin de fournir un accès contrôlé et sécurisé à la machine qui exécute l'interface CLI, ainsi que pour fournir un cryptage réseau. Cependant, lorsque le serveur HWI est utilisé, un utilisateur peut uniquement accéder aux données Hive autorisées par le serveur HWI via son navigateur Web.