Vidéo: Pig/Hive/Cascading. Le calcul "Batch" sur cluster Hadoop. 2024
Vous trouverez que l'écosystème Hadoop comporte de nombreux composants, qui existent tous comme leurs propres projets Apache. Étant donné que Hadoop a considérablement évolué et qu'il est confronté à d'importants changements, les différentes versions de ces composants de la communauté open source peuvent ne pas être totalement compatibles avec les autres composants. Cela pose des difficultés considérables pour les personnes cherchant à obtenir un démarrage indépendant avec Hadoop en téléchargeant et compilant des projets directement à partir d'Apache.
Red Hat est, pour beaucoup de gens, le modèle de la façon de gagner de l'argent avec succès sur le marché des logiciels open source. Qu'est-ce que Red Hat a fait est de prendre Linux (un système d'exploitation open source), regrouper tous ses composants requis, construire un programme d'installation simple, et fournir un support payant à tous les clients.
De la même manière que Red Hat fournit un emballage pratique pour Linux, un certain nombre de sociétés ont intégré Hadoop et certaines technologies connexes dans leurs propres distributions Hadoop. Cette liste décrit les plus importants:
-
Cloudera : Cloudera est peut-être le joueur le plus connu dans le domaine et il est le principal architecte de Doug Cutting, le co-fondateur de Hadoop. Cloudera est considéré par beaucoup de personnes comme le leader du marché dans l'espace Hadoop car il a publié la première distribution Hadoop commerciale et est un contributeur très actif du code à l'écosystème Hadoop.
Cloudera Enterprise, un produit positionné par Cloudera au centre de ce que l'on appelle le "Enterprise Data Hub", inclut la Distribution Cloudera pour Hadoop (CDH), une distribution open-source de Hadoop et de ses projets connexes. comme son propriétaire Cloudera Manager. Un abonnement au support technique pour les composants de base de CDH est également inclus.
Le principal modèle commercial de Cloudera repose depuis longtemps sur sa capacité à tirer parti de sa distribution CDH populaire et à fournir des services et une assistance payants. À l'automne 2013, Cloudera a officiellement annoncé qu'elle se concentrait sur l'ajout de composants propriétaires exclusifs à valeur ajoutée à Hadoop open source pour agir comme un facteur de différenciation.
De plus, Cloudera a pris l'habitude d'accélérer l'adoption des codes open source alpha et bêta pour les nouvelles versions de Hadoop. Son approche consiste à prendre en charge les composants qu'il considère comme matures et à les rééquiper dans les bibliothèques Open Source prêtes à la production qui sont incluses dans sa distribution.
-
EMC : Pivotal HD, la distribution Apache Hadoop d'EMC, intègre nativement la technologie de base de données de traitement massivement parallèle (MPP) d'EMC (anciennement connue sous le nom de Greenplum et maintenant HAWQ) avec Apache Hadoop.Le résultat est une distribution Hadoop haute performance avec un vrai traitement SQL pour Hadoop. Des requêtes SQL et d'autres outils de Business Intelligence peuvent être utilisés pour analyser les données stockées dans HDFS.
-
Hortonworks : un autre acteur majeur sur le marché Hadoop, Hortonworks possède le plus grand nombre de committers et de contributeurs de code pour les composants de l'écosystème Hadoop. (Les Committers sont les gardiens des projets Apache et ont le pouvoir d'approuver les changements de code.)
Hortonworks est une spin-off de Yahoo!, qui était le moteur d'origine du projet Hadoop car il avait besoin d'une plate-forme à grande échelle pour soutenir son activité de moteur de recherche. De tous les fournisseurs de distribution Hadoop, Hortonworks est le plus engagé dans le mouvement open source, basé sur le volume de travail de développement qu'il contribue à la communauté et parce que tous ses efforts de développement sont (éventuellement) intégrés dans la base de code open source.
Le modèle commercial de Hortonworks repose sur sa capacité à tirer parti de sa distribution HDP populaire et à fournir des services et un soutien rémunérés. Cependant, il ne vend pas de logiciels propriétaires. Au contraire, l'entreprise soutient avec enthousiasme l'idée de travailler au sein de la communauté open source pour développer des solutions répondant aux exigences des fonctionnalités d'entreprise (par exemple, un traitement plus rapide des requêtes avec Hive).
Hortonworks a noué de nombreuses relations avec des entreprises établies dans l'industrie de la gestion de données: Teradata, Microsoft, Informatica et SAS, par exemple. Bien que ces sociétés n'aient pas leurs propres offres Hadoop internes, elles collaborent avec Hortonworks pour fournir des solutions Hadoop intégrées avec leurs propres ensembles de produits.
L'offre Hortonworks Hadoop est la plate-forme de données Hortonworks (HDP), qui inclut Hadoop ainsi que les outils et projets associés. Contrairement à Cloudera, Hortonworks ne publie que des versions HDP avec un code de production de la communauté open source.
-
IBM : Big Blue offre une gamme d'offres Hadoop, avec un accent sur la valeur ajoutée par rapport à la pile Hadoop open source.
-
Intel: Intel Distribution pour Apache Hadoop (distribution Intel) fournit un traitement distribué et une gestion des données pour les applications d'entreprise qui analysent les mégadonnées.
Les principales caractéristiques comprennent d'excellentes performances avec des optimisations pour les processeurs Intel Xeon, le stockage SSD Intel et la mise en réseau Intel 10GbE; la sécurité des données via le cryptage et le décryptage dans HDFS, et le contrôle d'accès basé sur les rôles avec une granularité au niveau des cellules dans HBase; amélioration des performances des requêtes Hive; prise en charge de l'analyse statistique avec un connecteur pour R, le progiciel statistique open source populaire; graphiques analytiques via Intel Graph Builder.
-
MapR : pour une distribution complète pour Apache Hadoop et les projets connexes indépendants de Apache Software Foundation, ne cherchez pas plus loin que MapR. Bénéficiant de l'absence de dépendances Java ou de dépendance au système de fichiers Linux, MapR est promue comme la seule distribution Hadoop offrant une protection complète des données, aucun point de défaillance unique et des avantages significatifs en termes de facilité d'utilisation.
Trois éditions MapR sont disponibles: M3, M5 et M7. L'édition M3 est gratuite et disponible pour une utilisation illimitée en production. MapR M5 est une offre logicielle d'abonnement de niveau intermédiaire; et MapR M7 est une distribution complète pour Apache Hadoop et HBase qui comprend Pig, Hive, Sqoop, et bien plus encore.