Vidéo: Google I/O 2012 - Crunching Big Data with BigQuery 2024
Pour la plupart des gens, le terme Dremel évoque un outil pratique à grande vitesse et faible couple qui fonctionne bien pour une variété de travaux dans la maison. Mais saviez-vous que Google a créé un Dremel? Plutôt que de produire un autre outil mécanique portatif , Google a choisi un outil logiciel rapide destiné à l'analyse interactive des mégadonnées.
Comme d'autres technologies de Google qui ont inspiré des parties de l'écosystème Hadoop, comme MapReduce, Google File System (HDFS) et BigTable (voir HBase), Google a développé Dremel en interne, puis publié un document décrivant l'objectif et le design de la technologie. (En d'autres termes, Dremel n'est pas quelque chose que vous pouvez télécharger et utiliser sur votre cluster Hadoop.)
Google utilise Dremel pour de nombreux travaux, notamment l'analyse de documents explorés sur le Web, la détection de spams de courrier électronique, le traitement des rapports de plantage d'applications, etc. Le service BigQuery de Google utilise réellement Dremel.
Google a conçu la technologie MapReduce pour le traitement par lots sur des ensembles massifs de données. Au fur et à mesure de l'évolution de leurs besoins, leur technologie a évolué et Google a décidé de créer Dremel pour améliorer les performances des requêtes interactives sur les grands ensembles de données.
L'approche MapReduce fournit une évolutivité et une tolérance aux pannes de requêtes, mais c'est fondamentalement un système par lots, donc des temps de réponse pour des requêtes plus petites (requêtes impliquant seulement une petite partie d'un ensemble de données, par exemple) ne sont souvent pas ce que les utilisateurs attendent.
Google a donc développé une technologie d'exécution de requêtes conçue pour les requêtes interactives, qui s'exécute sur des serveurs intermédiaires au-dessus du système de fichiers Google (GFS). (Rappelez-vous, GFS a été l'inspiration pour Apache HDFS, qui est le système de fichiers de Hadoop.)
Similaire à Hive, Dremel utilise un langage de type SQL (familier à la plupart des programmeurs) et utilise une disposition de données en colonnes. Dremel fournit une réponse rapide et interactive aux requêtes tout en préservant l'évolutivité et la tolérance aux pannes d'Apache Hive. Dans le livre blanc de Dremel, Google explique comment il peut effectuer des requêtes d'agrégation en quelques secondes sur des tables contenant un billion de lignes, ce qui n'est pas mal du tout.
Google a donc sa technologie Dremel, qu'il utilise en interne, mais il y a aussi toutes les technologies "inspirées" par Dremel (un peu comme tous ces parfums "inspirés par" Drakkar Noir ").