Accueil Finances personnelles Comparant Hadoop Distributions - les nuls

Comparant Hadoop Distributions - les nuls

Vidéo: Pig/Hive/Cascading. Le calcul "Batch" sur cluster Hadoop. 2025

Vidéo: Pig/Hive/Cascading. Le calcul "Batch" sur cluster Hadoop. 2025
Anonim

Vous trouverez que l'écosystème Hadoop comporte de nombreux composants, qui existent tous comme leurs propres projets Apache. Étant donné que Hadoop a considérablement évolué et qu'il est confronté à d'importants changements, les différentes versions de ces composants de la communauté open source peuvent ne pas être totalement compatibles avec les autres composants. Cela pose des difficultés considérables pour les personnes cherchant à obtenir un démarrage indépendant avec Hadoop en téléchargeant et compilant des projets directement à partir d'Apache.

Red Hat est, pour beaucoup de gens, le modèle de la façon de gagner de l'argent avec succès sur le marché des logiciels open source. Qu'est-ce que Red Hat a fait est de prendre Linux (un système d'exploitation open source), regrouper tous ses composants requis, construire un programme d'installation simple, et fournir un support payant à tous les clients.

De la même manière que Red Hat fournit un emballage pratique pour Linux, un certain nombre de sociétés ont intégré Hadoop et certaines technologies connexes dans leurs propres distributions Hadoop. Cette liste décrit les plus importants:

  • Cloudera : Cloudera est peut-être le joueur le plus connu dans le domaine et il est le principal architecte de Doug Cutting, le co-fondateur de Hadoop. Cloudera est considéré par beaucoup de personnes comme le leader du marché dans l'espace Hadoop car il a publié la première distribution Hadoop commerciale et est un contributeur très actif du code à l'écosystème Hadoop.

    Cloudera Enterprise, un produit positionné par Cloudera au centre de ce que l'on appelle le "Enterprise Data Hub", inclut la Distribution Cloudera pour Hadoop (CDH), une distribution open-source de Hadoop et de ses projets connexes. comme son propriétaire Cloudera Manager. Un abonnement au support technique pour les composants de base de CDH est également inclus.

    Le principal modèle commercial de Cloudera repose depuis longtemps sur sa capacité à tirer parti de sa distribution CDH populaire et à fournir des services et une assistance payants. À l'automne 2013, Cloudera a officiellement annoncé qu'elle se concentrait sur l'ajout de composants propriétaires exclusifs à valeur ajoutée à Hadoop open source pour agir comme un facteur de différenciation.

    De plus, Cloudera a pris l'habitude d'accélérer l'adoption des codes open source alpha et bêta pour les nouvelles versions de Hadoop. Son approche consiste à prendre en charge les composants qu'il considère comme matures et à les rééquiper dans les bibliothèques Open Source prêtes à la production qui sont incluses dans sa distribution.

  • EMC : Pivotal HD, la distribution Apache Hadoop d'EMC, intègre nativement la technologie de base de données de traitement massivement parallèle (MPP) d'EMC (anciennement connue sous le nom de Greenplum et maintenant HAWQ) avec Apache Hadoop.Le résultat est une distribution Hadoop haute performance avec un vrai traitement SQL pour Hadoop. Des requêtes SQL et d'autres outils de Business Intelligence peuvent être utilisés pour analyser les données stockées dans HDFS.

  • Hortonworks : un autre acteur majeur sur le marché Hadoop, Hortonworks possède le plus grand nombre de committers et de contributeurs de code pour les composants de l'écosystème Hadoop. (Les Committers sont les gardiens des projets Apache et ont le pouvoir d'approuver les changements de code.)

    Hortonworks est une spin-off de Yahoo!, qui était le moteur d'origine du projet Hadoop car il avait besoin d'une plate-forme à grande échelle pour soutenir son activité de moteur de recherche. De tous les fournisseurs de distribution Hadoop, Hortonworks est le plus engagé dans le mouvement open source, basé sur le volume de travail de développement qu'il contribue à la communauté et parce que tous ses efforts de développement sont (éventuellement) intégrés dans la base de code open source.

    Le modèle commercial de Hortonworks repose sur sa capacité à tirer parti de sa distribution HDP populaire et à fournir des services et un soutien rémunérés. Cependant, il ne vend pas de logiciels propriétaires. Au contraire, l'entreprise soutient avec enthousiasme l'idée de travailler au sein de la communauté open source pour développer des solutions répondant aux exigences des fonctionnalités d'entreprise (par exemple, un traitement plus rapide des requêtes avec Hive).

    Hortonworks a noué de nombreuses relations avec des entreprises établies dans l'industrie de la gestion de données: Teradata, Microsoft, Informatica et SAS, par exemple. Bien que ces sociétés n'aient pas leurs propres offres Hadoop internes, elles collaborent avec Hortonworks pour fournir des solutions Hadoop intégrées avec leurs propres ensembles de produits.

    L'offre Hortonworks Hadoop est la plate-forme de données Hortonworks (HDP), qui inclut Hadoop ainsi que les outils et projets associés. Contrairement à Cloudera, Hortonworks ne publie que des versions HDP avec un code de production de la communauté open source.

  • IBM : Big Blue offre une gamme d'offres Hadoop, avec un accent sur la valeur ajoutée par rapport à la pile Hadoop open source.

  • Intel: Intel Distribution pour Apache Hadoop (distribution Intel) fournit un traitement distribué et une gestion des données pour les applications d'entreprise qui analysent les mégadonnées.

    Les principales caractéristiques comprennent d'excellentes performances avec des optimisations pour les processeurs Intel Xeon, le stockage SSD Intel et la mise en réseau Intel 10GbE; la sécurité des données via le cryptage et le décryptage dans HDFS, et le contrôle d'accès basé sur les rôles avec une granularité au niveau des cellules dans HBase; amélioration des performances des requêtes Hive; prise en charge de l'analyse statistique avec un connecteur pour R, le progiciel statistique open source populaire; graphiques analytiques via Intel Graph Builder.

  • MapR : pour une distribution complète pour Apache Hadoop et les projets connexes indépendants de Apache Software Foundation, ne cherchez pas plus loin que MapR. Bénéficiant de l'absence de dépendances Java ou de dépendance au système de fichiers Linux, MapR est promue comme la seule distribution Hadoop offrant une protection complète des données, aucun point de défaillance unique et des avantages significatifs en termes de facilité d'utilisation.

    Trois éditions MapR sont disponibles: M3, M5 et M7. L'édition M3 est gratuite et disponible pour une utilisation illimitée en production. MapR M5 est une offre logicielle d'abonnement de niveau intermédiaire; et MapR M7 est une distribution complète pour Apache Hadoop et HBase qui comprend Pig, Hive, Sqoop, et bien plus encore.

Comparant Hadoop Distributions - les nuls

Le choix des éditeurs

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2010 - dummies

Texte d'en-tête et de pied de page standard que vous pouvez sélectionner dans les menus déroulants, vous pouvez également créer un en-tête ou un pied de page personnalisé. En plus des éléments d'en-tête ou de pied de page typiques tels que le numéro de page, le nom de fichier et la date ou l'heure, vous pouvez insérer et mettre en forme une image. En outre, vous pouvez mettre en forme ...

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Comment créer un en-tête ou un pied de page personnalisé dans Excel 2013 - dummies

Bien qu'Excel 2013 propose plusieurs en-têtes de stock et pieds de page, vous pouvez insérer des informations non disponibles ou dans un arrangement qu'Excel n'offre pas dans les en-têtes et pieds de page prêts à l'emploi. Pour ce faire, vous devez utiliser les boutons de commande qui apparaissent dans le groupe Éléments d'en-tête et de bas de page de l'onglet Conception de ...

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Comment créer un nouveau dictionnaire personnalisé dans Excel 2007 - dummies

Dans Excel 2007, vous pouvez créer des dictionnaires personnalisés à utiliser lors de la vérification orthographique de vos feuilles de calcul. Vous utilisez le bouton Ajouter au dictionnaire dans la boîte de dialogue Orthographe pour ajouter des mots inconnus à un dictionnaire personnel. Par défaut, Excel ajoute ces mots à un fichier de dictionnaire personnalisé nommé CUSTOM. DIC, mais vous pouvez créer un nouveau custom ...

Le choix des éditeurs

Conseils pour photographier un coucher de soleil Photo - mannequins

Conseils pour photographier un coucher de soleil Photo - mannequins

Le coucher de soleil vous donne la même lumière merveilleuse que le matin , seulement vous obtenez la lumière merveilleuse à la fin de la journée, puis le soleil plonge sous l'horizon et tous les nuages ​​dans la région sont baignés de teintes vertigineuses d'orange, de rose et de pourpre. Le lever et le coucher du soleil sont les proverbes ...

Utiliser le mode Live View - les mannequins

Utiliser le mode Live View - les mannequins

Live View est une fonction extrêmement utile sur votre appareil photo numérique. Lorsque vous utilisez l'affichage en direct, le miroir de la caméra se verrouille et vous voyez la scène sur votre écran LCD plutôt que dans le viseur. Cela vous donne une toile plus grande sur laquelle composer vos images. Lorsque vous photographiez en mode Live View, vous ...

Conseils pour une prise de vue photo Sunrise - mannequins

Conseils pour une prise de vue photo Sunrise - mannequins

Le lever du soleil est un moment glorieux pour la nature et la photographie de paysage. Vous capturez des images merveilleuses juste avant que le soleil se lève et comme il jette un coup d'oeil sur l'horizon, et aussi pendant une heure ou deux après le lever du soleil. Si vous faites votre travail en tant que photographe de la bonne façon, vous ne prenez pas une image - ...

Le choix des éditeurs

Utilisez Répétition dans votre blog - mannequins

Utilisez Répétition dans votre blog - mannequins

Dans la conception, répétition signifie utiliser les mêmes éléments ou des éléments similaires dans votre blog conception. Si vous étalez tous les éléments de votre conception de blog sur une table (virtuelle), vous voulez que toutes ces pièces semblent appartenir à un ensemble plus vaste. La répétition améliore la fluidité du design de votre blog en connectant différents designs ...

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Utiliser Google Analytics pour consulter le trafic de référence de votre blog - le trafic de référence

Est le trafic vous recevez qui vient de sites autres que les moteurs de recherche. Vous pourriez recevoir du trafic provenant de sites de médias sociaux comme Facebook, Twitter ou StumbleUpon. Ou vous pourriez recevoir du trafic d'autres blogs ou sites Web qui pointent vers vous. En regardant les endroits où votre trafic vient (et ne vient pas ...

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Utiliser le serveur publicitaire OpenX OnRamp pour votre maman Blog - mannequins

Un serveur publicitaire est un logiciel Cela vous permettra de gérer toutes vos annonces d'un endroit, même si vous avez plus d'un blog. Il affiche les annonces, les fait pivoter, les cible et fournit des rapports de performances à vos clients publicitaires. OpenX a un produit gratuit appelé OpenX OnRamp quand vous arrivez à ...