Vidéo: Impala Hadoop Tutorial | Cloudera Impala Hands On | Hadoop Impala Architecture | COSO IT 2024
Cloudera est un fournisseur de logiciels et de services Apache Hadoop leader sur le marché des données volumineuses. Comme Apache Drill, la technologie Impala de Cloudera cherche à améliorer le temps de réponse des requêtes interactives pour les utilisateurs de Hadoop. Apache Hive fournit un mécanisme de requête familier et puissant pour les utilisateurs de Hadoop, mais les temps de réponse des requêtes sont souvent inacceptables en raison de la dépendance de Hive envers MapReduce. La réponse de Cloudera à ce problème est Impala.
Cloudera a développé un moteur de requête MPP, écrit en C ++, pour remplacer la couche MapReduce exploitée par Apache Hive. Contrairement à Dremel et Drill, Cloudera a décidé qu'un moteur MPP C ++ natif - au lieu d'un moteur Java - était la réponse aux requêtes Hadoop rapides et interactives.
Notez que Impala utilise HiveQL en tant qu'interface de programmation et que les moteurs Query Exec d'Impala sont co-localisés avec des nœuds de données HDFS, conformément à l'approche Hadoop de co-localisation de données avec des tâches de traitement. Impala peut également utiliser HBase en tant que magasin de données. En ce sens, Impala est une extension d'Apache Hadoop, offrant une alternative très performante au modèle Hive-on-top-of-MapReduce.
Cloudera et Twitter ont dirigé le développement du nouveau format de fichier Hadoop, qui peut être utilisé avec Impala et est disponible en open source sur GitHub. Le format de fichier Parquet fournit un support colonnaire robuste pour stocker des données dans Hadoop. Il prend en charge la compression et l'encodage hautement efficaces et est efficace pour stocker les structures de données imbriquées.
Vous pouvez trouver la technologie Impala de Cloudera, qui a également été inspirée par l'invention Dremel de Google.