Table des matières:
- Caractéristiques du Big Data
- Hadoop permet de traiter différents types de données. Les systèmes de gestion de bases de données parallèles sont sur le marché depuis des décennies. Ils peuvent prendre en charge l'exécution parallèle car la plupart des tables sont partitionnées sur les nœuds d'un cluster et peuvent traduire les commandes SQL en un plan réparti sur les nœuds du cluster. Cependant, ils traitent principalement des données structurées car il est difficile d'intégrer des données non structurées et libres dans les colonnes et les lignes d'un modèle relationnel.
Vidéo: Gestion et stockage des données dans le Big Data vues par NetApp 2024
Le terme big data est souvent utilisé dans le monde de la technologie cloud hybride en raison du besoin permanent de traiter des quantités croissantes de données. L'élément clé du big data est qu'il existe au point de basculement des solutions de contournement que les organisations ont historiquement mises en place pour gérer de gros volumes de données complexes. Les technologies Big Data permettent aux utilisateurs d'analyser et d'utiliser efficacement ces données.
Caractéristiques du Big Data
Le Big Data a généralement trois caractéristiques: le volume, la variété et la vélocité:
-
Volume: Le volume des données volumineuses est important. Il fait généralement référence à au moins plusieurs téraoctets de données. De nombreuses implémentations de Big Data cherchent à analyser des pétaoctets d'informations.
Nom Valeur Octet 10 0 Gigaoctet 10 9 octets Téraoctet 10 12 > octets Pétaoctet 10 15 octets Exaoctet 10 18 octets -
Les données volumineuses sont de différentes formes et tailles. Il inclut ces types de données: Les données structurées
-
sont le type de données typique avec lequel les analystes sont habitués. Il comprend les revenus et le nombre de ventes - le type de données que vous pensez inclure dans une base de données. Des données structurées sont également produites de manière nouvelle dans des produits tels que les capteurs et les étiquettes RFID.
-
sont structurées, mais pas de la même façon que les tables d'une base de données. Il comprend les formats EDI et XML. Les données non structurées
-
incluent le texte, l'image et l'audio, y compris tout document, message électronique, tweet ou blog interne à une entreprise ou sur Internet. Les données non structurées représentent environ 80% de toutes les données. Vitesse:
-
-
C'est la vitesse à laquelle les données se déplacent. Pensez à des capteurs capturant des données toutes les millisecondes ou des flux de données provenant d'équipements médicaux. Les données volumineuses viennent souvent à vous dans un flux, de sorte qu'il est associé à une nature en temps réel. Le cloud est un endroit idéal pour le Big Data en raison de son stockage évolutif, de sa puissance de calcul et de ses ressources élastiques. Le modèle de nuage est à grande échelle; l'informatique distribuée et un certain nombre de cadres et de technologies ont émergé pour soutenir ce modèle, y compris
Apache Hadoop:
-
Une plate-forme informatique distribuée open source écrite en Java. C'est une bibliothèque de logiciels qui permet le traitement distribué entre les clusters d'ordinateurs. C'est vraiment un système de fichiers distribué. Il crée un pool d'ordinateurs, chacun avec un système de fichiers Hadoop. Hadoop a été conçu pour traiter de grandes quantités de données complexes.Les données peuvent être structurées, non structurées ou semi-structurées. Hadoop peut fonctionner sur de nombreux serveurs qui ne partagent pas la mémoire ou le disque. Voir Hadoop pour plus d'informations. MapReduce:
-
Un framework logiciel introduit par Google pour prendre en charge l'informatique répartie sur de grands ensembles de données. C'est au cœur de ce que fait Hadoop avec le big data et l'analyse de Big Data. Il est conçu pour tirer parti des ressources du cloud. Ce calcul est effectué sur de nombreux ordinateurs, appelés clusters , et chaque cluster est appelé nœud . MapReduce peut traiter à la fois des données structurées et non structurées. Les utilisateurs spécifient une fonction de carte qui traite une paire clé / valeur pour générer un ensemble de paires intermédiaires et une fonction de réduction qui fusionne ces paires. Bases de données volumineuses
Hadoop permet de traiter différents types de données. Les systèmes de gestion de bases de données parallèles sont sur le marché depuis des décennies. Ils peuvent prendre en charge l'exécution parallèle car la plupart des tables sont partitionnées sur les nœuds d'un cluster et peuvent traduire les commandes SQL en un plan réparti sur les nœuds du cluster. Cependant, ils traitent principalement des données structurées car il est difficile d'intégrer des données non structurées et libres dans les colonnes et les lignes d'un modèle relationnel.
Hadoop a lancé un mouvement dans ce qui a été appelé
NoSQL, , ce qui ne signifie pas seulement SQL. Le terme fait référence à un ensemble de technologies différentes des systèmes de bases de données relationnelles. Une différence majeure est qu'ils n'utilisent pas SQL. Ils sont également conçus pour les magasins de données distribués. NoSQL ne signifie pas que les gens ne devraient pas utiliser SQL. Au contraire, l'idée est que, en fonction de votre problème, les bases de données relationnelles et les bases de données NoSQL peuvent coexister dans une organisation. Il existe de nombreux exemples de ces types de bases de données, dont les suivantes:
Apache Cassandra:
-
Un système de gestion de données distribué open source développé à l'origine par Facebook. Il n'a aucune exigence de structure stricte, il peut donc gérer tous les types de données. Les experts affirment qu'il excelle dans le traitement des transactions en temps réel à haut volume. D'autres bases de données open source incluent MongoDB, Apache CouchDB et Apache HBase. Amazon Simple DB:
-
Amazon compare cette base de données à une feuille de calcul en ce sens qu'elle contient des colonnes et des lignes contenant des attributs et des éléments stockés dans chaque feuille. Cependant, contrairement à une feuille de calcul, chaque cellule peut avoir plusieurs valeurs et chaque élément peut avoir son propre ensemble d'attributs associés. Amazon puis indexe automatiquement les données. Récemment, Amazon a annoncé Amazon Dynamo DB comme un moyen d'apporter de grandes données NoSQL dans le nuage. Google BigTable:
-
Cet hybride ressemble à une grande table. Étant donné que les tables peuvent être volumineuses, elles sont divisées aux limites des lignes en tables, qui peuvent être des centaines de mégaoctets environ. MapReduce est souvent utilisé pour générer et modifier des données stockées dans BigTable.