Vidéo: Hadoop Processing Frameworks 2024
Même si de nouveaux outils continuent d'être disponibles pour vous aider à gérer et à analyser plus efficacement votre structure de big data, vous ne pourrez peut-être pas obtenir ce dont vous avez besoin. En outre, une gamme de technologies peut prendre en charge l'analyse de grandes quantités de données et les exigences telles que la disponibilité, l'évolutivité et la haute performance. Certains d'entre eux incluent des appareils Big Data, des bases de données colonnaires, des bases de données en mémoire, des bases de données non relationnelles et des moteurs de traitement massivement parallèles.
Alors, que recherchent les utilisateurs professionnels en matière d'analyse de Big Data? La réponse à cette question dépend du type de problème commercial qu'ils essaient de résoudre. Voici quelques considérations importantes lorsque vous sélectionnez un framework d'analyse d'application de données volumineuses:
-
Prise en charge de plusieurs types de données: De nombreuses organisations incorporent ou prévoient d'incorporer tous les types de données dans leurs déploiements de données volumineuses, y compris les données structurées, semi-structurées et non structurées.
-
Traiter le traitement par lots et / ou les flux de données en temps réel: L'orientation de l'action est un produit de l'analyse des flux de données en temps réel. Certains utilisateurs auront besoin des deux, car ils évoluent pour inclure différentes formes d'analyse.
-
Utilisez ce qui existe déjà dans votre environnement: Pour obtenir le bon contexte, il peut être important de tirer parti des données et des algorithmes existants dans le cadre d'analyse de Big Data.
-
Soutenez NoSQL et d'autres formes plus récentes d'accès aux données: Alors que les organisations continueront à utiliser SQL, beaucoup cherchent aussi de nouvelles formes d'accès aux données pour supporter des temps de réponse plus rapides ou des décisions plus rapides.
-
Surmontez la faible latence: Si vous devez gérer des vitesses de données élevées, vous aurez besoin d'un framework capable de prendre en charge les exigences de vitesse et de performance.
-
Fournir un stockage bon marché: Le stockage de données volumineuses signifie potentiellement beaucoup de stockage - en fonction de la quantité de données que vous souhaitez traiter et / ou conserver.
-
Intégration aux déploiements dans le cloud: Le cloud peut fournir des capacités de stockage et de calcul à la demande. De plus en plus d'entreprises utilisent le cloud comme «sandbox» d'analyse. «De plus en plus, le cloud devient un modèle de déploiement important pour intégrer des systèmes existants avec des déploiements cloud dans un modèle hybride.
Bien que toutes ces caractéristiques soient importantes, la valeur perçue et réelle de la création d'applications à partir d'un framework est plus rapide à déployer.Avec toutes ces capacités à l'esprit, envisagez un cadre d'application d'analyse de données volumineuses d'une société appelée Continuity.
The Continuity AppFabric est un framework supportant le développement et le déploiement d'applications Big Data. L'AppFabric lui-même est un ensemble de technologies spécialement conçues pour abstraire les caprices des technologies de bas niveau de données de bas niveau. Le générateur d'application est un plug-in Eclipse permettant au développeur de créer, tester et déboguer localement et dans un environnement familier.
Les fonctionnalités d'AppFabric sont les suivantes:
-
Prise en charge des flux pour l'analyse en temps réel et la réaction
-
API unifiée, éliminant le besoin d'écrire dans les infrastructures Big Data
-
Interfaces de requête pour des résultats simples et support des processeurs de requête enfichables
-
Ensembles de données représentant des données interrogeables et tables accessibles à partir de l'API unifiée
-
Lecture et écriture de données indépendantes des formats d'entrée ou de sortie ou des composants sous-jacents
-
Traitement d'événements basé sur des transactions
-
Déploiement multimodal sur un seul noeud ou le cloud
Cette approche va gagner du terrain pour le développement d'applications de Big Data, principalement en raison de la pléthore d'outils et de technologies nécessaires pour créer un environnement de données volumineuses.
Le manque de collaboration peut être coûteux à bien des égards. Les grandes organisations peuvent bénéficier d'outils qui favorisent les collaborations. Très souvent, les personnes qui effectuent un travail similaire ne se rendent pas compte des efforts de l'autre pour aboutir à un travail en double.
OpenChorus est un autre bon exemple de framework d'application. En plus du développement rapide d'applications d'analyse de Big Data, il prend également en charge la collaboration et fournit de nombreuses autres fonctionnalités importantes pour les développeurs de logiciels, telles que l'intégration d'outils, le contrôle de version et la gestion de configuration.
Open Chorus est un projet géré par EMC Corporation et disponible sous la licence Apache 2. 0. EMC produit et prend également en charge une version commerciale de Chorus. Les deux Open Chorus et Chorus ont des réseaux de partenaires dynamiques ainsi qu'un grand nombre de contributeurs individuels et corporatifs.
Open Chorus est un framework générique. Sa principale caractéristique est la capacité de créer un «hub» commun pour partager des sources de données volumineuses, des idées, des techniques d'analyse et des visualisations. Open Chorus fournit les éléments suivants:
-
Référentiel d'outils d'analyse, d'artefacts et de techniques avec versionnage complet, suivi des modifications et archivage
-
Espaces de travail et sandbox auto-dimensionnés et facilement gérés par les membres de la communauté
-
Visualisations, y compris heat maps, séries chronologiques, histogrammes, etc.
-
Recherche fédérée de tous les éléments de données, y compris Hadoop, métadonnées, référentiels SQL et commentaires
-
Collaboration via des fonctionnalités de réseau social encourageant la découverte, le partage et le brainstorming
-
Extensibilité pour l'intégration de composants et de technologies tiers