Table des matières:
- Principes de base des données volumineuses: SGBDR et données persistantes
- Bases de données volumineuses: SGBDR et tables
- PostgreSQL, une base de données relationnelle open source
Vidéo: Sqoop Import and Export data from RDMBS and HDFS 2024
Les données volumineuses deviennent un élément important dans la façon dont les entreprises exploitent les données volumineuses à la bonne vitesse pour résoudre des données spécifiques problèmes. Les systèmes de gestion de base de données relationnelle sont importants pour ce volume élevé. Les données volumineuses ne vivent pas isolément. Pour être efficaces, les entreprises doivent souvent être en mesure de combiner les résultats de l'analyse des données volumineuses avec les données existantes dans l'entreprise.
Principes de base des données volumineuses: SGBDR et données persistantes
L'un des services les plus importants fournis par les bases de données opérationnelles (également appelées banques de données ) est la persistance. La persistance garantit que les données stockées dans une base de données ne seront pas modifiées sans autorisation et qu'elles seront disponibles aussi longtemps que cela sera important pour l'entreprise. À quoi sert une base de données si elle ne peut pas être fiable pour protéger les données que vous y mettez?
Compte tenu de cette exigence importante, vous devez ensuite réfléchir au type de données que vous souhaitez conserver, comment y accéder et le mettre à jour, et comment l'utiliser pour prendre des décisions commerciales. À ce niveau fondamental, le choix de vos moteurs de base de données est essentiel à la réussite globale de votre implémentation de Big Data.
Bien que la technologie sous-jacente existe depuis un certain temps, nombre de ces systèmes fonctionnent aujourd'hui parce que les entreprises qu'ils prennent en charge dépendent fortement des données. Les remplacer ressemblerait à changer les moteurs d'un avion sur un vol transocéanique.
Bases de données volumineuses: SGBDR et tables
Les bases de données relationnelles sont construites sur une ou plusieurs relations et sont représentées par des tables. Ces tables sont définies par leurs colonnes et les données sont stockées dans les lignes. La clé primaire est souvent la première colonne de la table. La cohérence de la base de données et une grande partie de sa valeur sont obtenues en "normalisant" les données. Les données normalisées ont été converties du format natif dans un format partagé et accepté.
Par exemple, dans une base de données, vous pouvez avoir "téléphone" comme XXX-XXX-XXXX alors que dans un autre, il peut s'agir de XXXXXXXXX. Pour obtenir une vue cohérente de l'information, le champ devra être normalisé à un autre formulaire. Il existe cinq niveaux de normalisation pour la normalisation. Le choix de la forme normale est souvent relégué au concepteur de base de données. La collection de tables, de clés, d'éléments, etc. est connue sous le nom de schéma de base de données .
Au fil des ans, le langage de requête structuré (SQL) a évolué au niveau des verrous avec la technologie RDBMS et est le mécanisme le plus largement utilisé pour créer, interroger, maintenir et exploiter des bases de données relationnelles.
Dans les entreprises petites et grandes, la plupart de leurs informations opérationnelles importantes sont probablement stockées dans des SGBDR. De nombreuses entreprises ont des SGBDR différents pour différents domaines de leur activité. Les données transactionnelles peuvent être stockées dans la base de données d'un fournisseur, alors que les informations client peuvent être stockées dans une autre.
Il est peu probable que vous utilisiez des SGBDR pour le cœur de la mise en œuvre, mais vous devrez compter sur les données stockées dans les SGBDR pour créer le plus haut niveau de valeur pour l'entreprise avec des données volumineuses.
PostgreSQL, une base de données relationnelle open source
Lors de la mise en œuvre de votre Big Data, vous rencontrerez probablement PostgreSQL, une base de données relationnelle Open Source largement utilisée. Plusieurs facteurs contribuent à la popularité de PostgreSQL. En tant que SGBDR prenant en charge le standard SQL, tout ce que l'on attend d'un produit de base de données, ainsi que sa longévité et sa large utilisation, en ont fait un «test de bataille». "Il est également disponible sur à peu près tous les types de systèmes d'exploitation, des PC aux ordinateurs centraux.
Fournir les bases et le faire de manière fiable ne sont qu'une partie de l'histoire. PostgreSQL supporte également de nombreuses fonctionnalités que l'on trouve dans les SGBDR propriétaires onéreux, notamment:
-
Possibilité de gérer directement les objets dans le schéma relationnel
-
Clés étrangères (référence des clés d'une table dans une autre)
-
Déclencheurs utilisé pour démarrer automatiquement une procédure stockée)
-
Requêtes complexes (sous-requêtes et jointures sur des tables discrètes)
-
Intégrité transactionnelle
-
Contrôle simultané multiversion
La véritable puissance de PostgreSQL réside dans son extensibilité. Les utilisateurs et les programmeurs de base de données peuvent ajouter de nouvelles capacités sans affecter le fonctionnement fondamental ou la fiabilité de la base de données. Les extensions possibles incluent
-
Types de données
-
Opérateurs
-
Fonctions
-
Méthodes d'indexation
-
Langues procédurales
Ce niveau élevé de personnalisation rend PostgreSQL souhaitable lorsque des produits propriétaires rigides ne permettent pas de faire le travail. Il est infiniment extensible.
Enfin, la licence PostgreSQL permet la modification et la distribution sous n'importe quelle forme, ouverte ou fermée. Toutes les modifications peuvent être gardées privées ou partagées avec la communauté comme vous le souhaitez.