Vidéo: Hadoop à grande échelle : comment croître sur le long terme (Nicolas Helleringer) 2025
Se faire la tête NoSQL peut être un peu difficile. Si vous avez étudié des bases de données à l'école, vous avez peut-être été endoctriné de manière relationnelle. Dites base de données à la plupart des gens, et ils pensent système de gestion de base de données relationnelle . Ceci est naturel car au cours des 30 dernières années, le RDBMS a été si dominant.
Pour vous aider dans cette aventure, voici quelques termes clés qui prévalent, ainsi que ce qu'ils signifient lorsqu'ils sont appliqués à des bases de données NoSQL.
-
Construction de base de données
-
Base de données: Une seule unité logique, répartie sur plusieurs machines, dans laquelle des données peuvent être ajoutées et qui peuvent être interrogées pour les données qu'elles contiennent.
Le terme relationnel tablespace pourrait également s'appliquer à une base de données ou à une collection NoSQL.
-
Batterie de données: Terme issu du SGBDR faisant référence à un ensemble de jeux de réplicas en lecture seule stockés sur un cluster géré de machines.
Dans un SGBDR, il est généralement impossible d'ajouter des machines sans interruption de service. Dans les grappes NoSQL, il est souhaitable d'effectuer rapidement une mise à l'échelle.
-
Partition: Ensemble de données à stocker ensemble sur un seul nœud pour le traitement de l'efficacité ou pour la réplication.
Peut également être utilisé pour l'interrogation. Dans ce cas, il peut être considéré comme une collection .
-
-
Structure de la base de données
-
Collection: Ensemble d'enregistrements, généralement des documents, regroupés. Ce n'est pas basé sur une propriété dans l'ensemble d'enregistrements, mais dans ses métadonnées. L'affectation d'un enregistrement à une collection est généralement effectuée au moment de la création ou de la mise à jour.
-
Schéma: Dans les SGBDR et dans une certaine mesure les magasins de colonnes. La structure des données doit être configurée dans la base de données avant le chargement des données.
Dans les bases de documents, bien que toute structure puisse être stockée, il est parfois préférable de limiter les structures en appliquant le schéma, par exemple dans une définition de schéma XML. Cependant, NoSQL est généralement considéré comme sans schéma ou comme schéma de variable de support.
-
-
Enregistrements
-
Enregistrement: Une seule unité atomique de représentation des données dans la base de données particulière décrite.
Dans un SGBDR, il s'agirait d'une ligne, comme dans les magasins de colonnes. Cela peut également être une valeur dans un magasin de valeurs-clés, un document dans un magasin de documents ou un sujet (et non un triplet) dans un magasin triple.
-
Ligne: Unité atomique d'enregistrement dans un SGBDR ou un magasin de colonnes.
Peut être modélisé en tant qu'élément dans un magasin de documents ou en tant que carte dans un magasin de valeurs-clés.
-
Champ: Un seul champ dans un enregistrement. Une colonne dans un SGBDR.
Peut ne pas être présent dans tous les enregistrements, mais lorsqu'il est présent, il doit être du même type ou de la même structure.
-
Tableau: Une seule classe d'enregistrement. Dans Bigtable, ils sont également appelés tables. Dans un magasin triple, ils peuvent être appelés types RDF ou être appelés graphes, selon le contexte. Dans un magasin de documents, il peut s'agir de collections.
-
-
Associations d'enregistrements
-
Clé primaire: Valeur unique garantie dans une table particulière pouvant être utilisée pour toujours référencer un enregistrement. Une clé dans un magasin de valeurs-clés, un URI dans un magasin de documents ou un IRI dans un magasin triple ou graphique.
-
Clé étrangère: Une valeur de données qui indique qu'un enregistrement est lié à un enregistrement dans une table ou un jeu d'enregistrements différent. A la même valeur que la clé primaire dans la table associée.
-
Relation: Un lien, ou arête dans la théorie des graphes, qui indique que deux enregistrements ont un lien sémantique. La relation peut être entre deux enregistrements dans les mêmes tables ou des tables différentes.
Dans SGBDR, il s'agit normalement d'autres tables, alors que dans un triple magasin, il est courant de relier des sujets du même type (personnes dans un graphe social, par exemple). Certaines bases de données, principalement les banques de graphes, prennent en charge l'ajout de métadonnées aux relations.
-
-
Organisation de stockage
-
Serveur: Un nœud d'ordinateur unique dans un cluster. Exécute généralement une seule instance du code d'un serveur de base de données.
-
Cluster: Un ou plusieurs groupes physiques gérés ensemble dans le même centre de données pour fournir un service unique. Peut répliquer ses bases de données à des clusters dans d'autres centres de données.
-
Forme normale: Méthode de normalisation ou de réduction de la duplication des données dans un SGBDR.
Les bases de données NoSQL conduisent généralement à une structure de données dénormalisée afin de fournir une interrogation ou un accès aux données plus rapide.
-
-
Technologie de réplication
-
Réplication de disque: Réplication transparente des données entre les nœuds d'un même cluster pour fournir une résilience de haute disponibilité en cas de panne d'un seul nœud.
-
Réplication de la base de données: Réplication entre les bases de données dans différents clusters. Réplique toutes les données dans l'ordre de mise à jour d'un cluster à l'autre. Toujours unidirectionnel.
-
Réplication flexible: Offre une réplication contrôlée des données entre les bases de données de différents clusters. Les mises à jour peuvent ne pas arriver dans le même ordre qu'elles ont été appliquées à la première base de données. Cela implique généralement un traitement personnalisé, tel que la priorisation des mises à jour de données à envoyer ensuite. Peut être bidirectionnel avec le code de résolution de conflit de mise à jour approprié.
-
-
Outils de recherche
-
Index: Liste ordonnée des valeurs présentes dans un enregistrement particulier.
-
Inverser l'index: Liste ordonnée des valeurs (termes) et liste des clés primaires des enregistrements utilisant ces termes.
Fournit des fonctions efficaces de recherche de texte non structuré et d'agrégation rapide et de tri lorsqu'il est mis en mémoire cache.
-
Requête: Ensemble de critères qui aboutit à une liste d'enregistrements correspondant exactement à la requête, retournés dans l'ordre des valeurs de champs particuliers.
-
Recherche: Ensemble de critères donnant une liste de pertinence correspondant à la requête.
Les critères de recherche peuvent ne pas exiger une correspondance exacte, mais renvoyer un calcul de pertinence pondéré par la proximité de la correspondance aux critères.C'est ce que Google fait lorsque vous effectuez une recherche.
-
