Table des matières:
- Sources de données volumineuses structurées
- Le rôle des bases de données relationnelles dans les mégadonnées
Vidéo: Structuration des données juridiques dans le Big Data : intervention de Monsieur Guillaume Adréani 2024
Le terme données structurées fait généralement référence à des données ayant une longueur et un format définis pour les mégadonnées. Des exemples de données structurées comprennent des nombres, des dates et des groupes de mots et de nombres appelés chaînes . La plupart des experts s'accordent à dire que ce type de données représente environ 20% des données disponibles. Les données structurées sont les données auxquelles vous êtes probablement habitué. Il est généralement stocké dans une base de données.
Sources de données volumineuses structurées
Bien que cela puisse sembler banal, en réalité, les données structurées prennent un nouveau rôle dans le monde du Big Data. L'évolution de la technologie fournit de nouvelles sources de données structurées produites - souvent en temps réel et dans de grands volumes. Les sources de données sont divisées en deux catégories:
-
Générées par ordinateur ou par ordinateur: Les données générées par machine font généralement référence à des données créées par une machine sans intervention humaine.
-
Généré par l'homme: Ce sont les données que les humains, en interaction avec les ordinateurs, fournissent.
Certains experts soutiennent qu'il existe une troisième catégorie qui est un hybride entre la machine et l'humain. Ici, cependant, nous sommes préoccupés par les deux premières catégories.
Les données structurées générées par la machine peuvent inclure:
-
Données de capteur: Les exemples incluent les étiquettes d'identification de radiofréquence, les compteurs intelligents, les dispositifs médicaux et les données du système de positionnement global. Les entreprises s'intéressent à cela pour la gestion de la chaîne d'approvisionnement et le contrôle des stocks.
-
données de journaux Web: Lorsque des serveurs, des applications, des réseaux, etc. fonctionnent, ils capturent toutes sortes de données sur leur activité. Cela peut représenter d'énormes volumes de données qui peuvent être utiles, par exemple, pour traiter des accords de niveau de service ou pour prévoir les failles de sécurité.
-
Données du point de vente: Lorsque le caissier balaie le code à barres de tout produit que vous achetez, toutes les données associées au produit sont générées.
-
Données financières: Beaucoup de systèmes financiers sont maintenant programmatiques; ils sont exploités sur la base de règles prédéfinies qui automatisent les processus. Les données boursières en sont un bon exemple. Il contient des données structurées telles que le symbole de l'entreprise et la valeur monétaire. Certaines de ces données sont générées par une machine, et d'autres sont générées par des humains.
Voici des exemples de données générées par des humains:
-
Données d'entrée: Toute donnée qu'un utilisateur peut entrer dans un ordinateur, comme son nom, son âge, son revenu, son non-libre -former les réponses à l'enquête, et ainsi de suite. Ces données peuvent être utiles pour comprendre le comportement de base du client.
-
Cliquez-diffuser des données: Des données sont générées à chaque fois que vous cliquez sur un lien d'un site Web. Ces données peuvent être analysées pour déterminer le comportement des clients et les habitudes d'achat.
-
Données relatives aux jeux: Chaque mouvement que vous effectuez dans un jeu peut être enregistré. Cela peut être utile pour comprendre comment les utilisateurs finaux évoluent dans un portefeuille de jeux.
Lorsqu'elle est prise avec des millions d'autres utilisateurs soumettant la même information, la taille est astronomique. De plus, une grande partie de ces données comporte un élément en temps réel qui peut être utile pour comprendre les modèles qui ont le potentiel de prédire les résultats.
L'essentiel est que ce type d'information peut être puissant et peut être utilisé à de nombreuses fins.
Le rôle des bases de données relationnelles dans les mégadonnées
La persistance des données fait référence à la manière dont une base de données conserve ses versions lorsqu'elle est modifiée. L'arrière grand-père des banques de données persistantes est le système de gestion de base de données relationnelle . À ses débuts, l'industrie informatique utilisait ce que l'on considère maintenant comme des techniques primitives de persistance des données.
Le modèle relationnel a été inventé par Edgar Codd, un scientifique d'IBM, dans les années 1970 et a été utilisé par IBM, Oracle, Microsoft et d'autres. Il est encore largement utilisé aujourd'hui et joue un rôle important dans l'évolution des mégadonnées. Comprendre la base de données relationnelle est important car d'autres types de bases de données sont utilisés avec des données volumineuses.
Dans un modèle relationnel, les données sont stockées dans une table. Cette base de données contiendrait un schéma , c'est-à-dire une représentation structurelle de ce qui se trouve dans la base de données. Par exemple, dans une base de données relationnelle, le schéma définit les tables, les champs dans les tables et les relations entre les deux.
Les données sont stockées dans des colonnes, une pour chaque attribut spécifique. Les données sont également stockées dans la ligne. La première table stocke les informations sur le produit; la seconde stocke les informations démographiques. Chacun a divers attributs. Chaque table peut être mise à jour avec de nouvelles données, et les données peuvent être supprimées, lues et mises à jour. Ceci est souvent accompli dans un modèle relationnel utilisant un langage de requête structuré (SQL).
Un autre aspect du modèle relationnel utilisant SQL est que les tables peuvent être interrogées à l'aide d'une clé commune. La clé commune dans les tables est CustomerID.
Vous pouvez soumettre une requête, par exemple, pour déterminer le sexe des clients ayant acheté un produit spécifique. Cela peut ressembler à ceci:
Sélectionnez CustomerID, State, Gender, Product dans la "table démographique", "product table" où Product = XXYY