Table des matières:
- Serveurs virtualisés
- Les variantes d'environnements virtualisés sont des fournisseurs de cloud computing tels qu'Amazon, Rackspace et IBM SoftLayer. La plupart des principaux fournisseurs de cloud public ont maintenant des offres MapReduce ou Hadoop disponibles. Encore une fois, leur performance est inférieure au déploiement de votre cluster sur du matériel dédié, mais elle s'améliore.
Vidéo: Horizon - Brian Stevens - Expanding the Cloud Community 2024
Bien qu'Hadoop fonctionne mieux lorsqu'il est installé sur un ordinateur physique, où le traitement a un accès direct au stockage dédié et aux réseaux, Hadoop propose des déploiements alternatifs. Et bien qu'ils soient moins efficaces que le matériel dédié, dans certains cas les alternatives sont des options intéressantes.
Serveurs virtualisés
Une tendance majeure dans les centres informatiques au cours de la dernière décennie est la virtualisation, où un grand serveur peut héberger plusieurs «machines virtuelles» qui ressemblent et agissent comme des machines uniques. À la place du matériel dédié, l'ensemble des applications et des référentiels d'une organisation est déployé sur du matériel virtualisé.
Cette approche présente de nombreux avantages: La centralisation de l'informatique simplifie la maintenance, l'investissement informatique est maximisé en raison du nombre réduit de cycles CPU inutilisés et l'encombrement matériel global est moindre, ce qui réduit le coût total de possession.
Les organisations dans lesquelles les déploiements informatiques sont entièrement virtualisés exigent parfois que chaque nouvelle application suive ce modèle. Bien que Hadoop puisse être déployé de cette manière, essentiellement en tant que cluster virtuel (avec des nœuds maîtres virtuels et des nœuds esclaves virtuels), les performances s'en ressentent, en partie parce que pour la plupart des environnements virtualisés, le stockage est basé sur SAN.
Les environnements virtualisés peuvent être très utiles, dans certains cas. Par exemple, si votre organisation doit effectuer une analyse exploratoire ponctuelle d'un grand ensemble de données, vous pouvez facilement créer un cluster temporaire dans votre environnement virtualisé. Cette méthode est souvent un moyen plus rapide d'obtenir une approbation interne que de subir les tracas bureaucratiques liés à l'achat de nouveaux matériels dédiés.
Lorsque vous expérimentez Hadoop, vous l'exécutez souvent sur vos ordinateurs portables via une machine virtuelle (VM). Hadoop est extrêmement lent dans ce type d'environnement, mais si vous utilisez de petits ensembles de données, c'est un outil d'apprentissage et de test précieux.
Déploiements dans le cloud
Les variantes d'environnements virtualisés sont des fournisseurs de cloud computing tels qu'Amazon, Rackspace et IBM SoftLayer. La plupart des principaux fournisseurs de cloud public ont maintenant des offres MapReduce ou Hadoop disponibles. Encore une fois, leur performance est inférieure au déploiement de votre cluster sur du matériel dédié, mais elle s'améliore.
Les fournisseurs de cloud mettent à disposition des environnements optimisés Hadoop où les nœuds esclaves disposent d'un stockage connecté localement et d'un réseau dédié. De plus, les hyperviseurs deviennent de plus en plus efficaces, avec des temps système et des temps de latence réduits.
Ne considérez pas une solution cloud pour les applications à long terme, car le coût de location des ressources de cloud computing est nettement supérieur à celui de posséder et de maintenir un système comparable. Avec un fournisseur de cloud, vous payez pour plus de commodité et pour pouvoir décharger les frais généraux du matériel d'approvisionnement. Cependant, le cloud est une plate-forme idéale pour les tests, l'éducation et les tâches ponctuelles de traitement des données.
Outre les considérations relatives aux performances et aux coûts, vous devez tenir compte des réglementations en matière de déploiement de cloud public. Si vous avez des données sensibles, qui doivent être stockées en interne ou dans le pays, un déploiement de cloud public n'est pas une option. Dans les cas comme celui-ci, où vous avez besoin de la commodité d'un déploiement basé sur le cloud, un cloud privé est une bonne option, si elle est disponible.