Vidéo: FAST CARS, BIG DATA - ou comment le streaming peut aider la Formule 1. Tugdual Grall 2024
HBase est une base de données distribuée non relationnelle (colonne) qui utilise HDFS comme stockage de persistance pour les projets Big Data. Il est modelé sur Google BigTable et est capable d'héberger de très grandes tables (des milliards de colonnes / rangées) car il est en couches sur des clusters Hadoop de matériel de base.
HBase fournit un accès en lecture / écriture aléatoire et en temps réel aux données volumineuses. HBase est hautement configurable, offrant une grande flexibilité pour traiter efficacement d'énormes quantités de données. Jetez maintenant un coup d'œil à la façon dont HBase peut vous aider à relever vos défis en matière de données volumineuses.
HBase est une base de données en colonnes, de sorte que toutes les données sont stockées dans des tables avec des lignes et des colonnes similaires aux systèmes de gestion de bases de données relationnelles (SGBDR). L'intersection d'une ligne et d'une colonne s'appelle une cellule. Une différence importante entre les tables HBase et les tables RDBMS est le versionnement.
Chaque valeur de cellule inclut un attribut "version", qui n'est rien d'autre qu'un horodatage identifiant de manière unique la cellule. Le contrôle de version suit les changements dans la cellule et permet de récupérer n'importe quelle version du contenu si cela devient nécessaire. HBase stocke les données dans les cellules dans l'ordre décroissant (en utilisant l'horodatage), ainsi une lecture trouvera toujours les valeurs les plus récentes en premier.
Les colonnes de HBase appartiennent à une famille de colonnes. Le nom de la famille de colonnes est utilisé comme préfixe pour identifier les membres de sa famille. Par exemple, les fruits: pomme et fruits: les bananes sont membres de la famille des fruits. Les implémentations HBase sont adaptées au niveau de la famille de colonnes. Il est donc important de garder à l'esprit la façon dont vous allez accéder aux données et la taille que vous attendez des colonnes.
Les lignes des tables HBase sont également associées à une clé. La structure de la clé est très flexible. Il peut s'agir d'une valeur calculée, d'une chaîne ou même d'une autre structure de données. La clé est utilisée pour contrôler l'accès aux cellules de la ligne, et elles sont stockées dans l'ordre de faible valeur à haute valeur.
Toutes ces fonctionnalités constituent le schéma. Le schéma est défini et créé avant que toute donnée puisse être stockée. Même ainsi, les tables peuvent être modifiées et de nouvelles familles de colonnes peuvent être ajoutées après que la base de données soit opérationnelle. Cette extensibilité est extrêmement utile lorsque vous gérez des données volumineuses, car vous ne connaissez pas toujours la diversité de vos flux de données.