Comment garantir la validité, la véracité et la volatilité des mégadonnées - mannequins

Vidéo: Regulatory Approaches to Dietary Supplements and their Claims 2025

Un volume élevé, une grande variété et une vitesse élevée sont les caractéristiques essentielles de Big Data. Mais d'autres caractéristiques des mégadonnées sont également importantes, en particulier lorsque vous appliquez des données volumineuses à des processus opérationnels. Ce deuxième ensemble de caractéristiques «V» qui sont essentielles à l'opérationnalisation des mégadonnées comprend

Validité: Les données sont-elles correctes et précises pour l'usage prévu?
Véracité: Les résultats sont-ils significatifs pour l'espace problème donné?
Volatilité: Combien de temps avez-vous besoin pour stocker ces données?

Validité du Big Data

Vous souhaitez obtenir des résultats précis. Mais dans les premières étapes de l'analyse de pétaoctets de données, il est probable que vous ne vous inquiétiez pas de la validité de chaque élément de données. Ce flux initial de Big Data pourrait être plutôt sale. Dans les étapes initiales, il est plus important de voir s'il existe des relations entre les éléments au sein de cette source de données massive que de s'assurer que tous les éléments sont valides.

Cependant, lorsqu'une organisation détermine que des parties de cette analyse de données initiale sont importantes, ce sous-ensemble de données volumineuses doit être validé car il sera désormais appliqué à une condition opérationnelle. Lorsque les données passent de l'exploratoire à l'action, les données doivent être validées. La validité des sources de données volumineuses et l'analyse ultérieure doivent être précises si vous devez utiliser les résultats pour la prise de décision.

Les données d'entrée correctes suivies d'un traitement correct des données devraient donner des résultats précis. Avec les données volumineuses, vous devez être très vigilant en ce qui concerne la validité. Par exemple, dans les soins de santé, vous pouvez avoir des données d'un essai clinique qui pourrait être lié aux symptômes de la maladie d'un patient. Mais un médecin traitant cette personne ne peut pas simplement prendre les résultats des essais cliniques sans les valider.

Imaginez que le satellite météo indique qu'une tempête commence dans une partie du monde. Comment cette tempête affecte-t-elle les individus? Avec environ un demi-milliard d'utilisateurs, il est possible d'analyser les flux Twitter pour déterminer l'impact d'une tempête sur les populations locales. Par conséquent, l'utilisation de Twitter en combinaison avec des données provenant d'un satellite météorologique pourrait aider les chercheurs à comprendre la véracité d'une prévision météorologique.

Volatilité du Big Data

Si vous disposez de données valides et que vous pouvez prouver la véracité des résultats, combien de temps les données doivent-elles «vivre» pour satisfaire vos besoins? Dans un paramètre de données standard, vous pouvez conserver des données pendant des décennies car vous avez, au fil du temps, acquis une compréhension des données importantes pour ce que vous en faites.Vous avez établi des règles pour la disponibilité et la disponibilité des données qui correspondent à vos processus de travail.

Par exemple, certaines organisations peuvent conserver uniquement l'année la plus récente de leurs données clients et de leurs transactions dans leurs systèmes métier. Cela assurera une récupération rapide de cette information si nécessaire. S'ils ont besoin de regarder une année antérieure, l'équipe informatique peut avoir besoin de restaurer les données à partir du stockage hors ligne pour honorer la demande. Avec les grandes données, ce problème est amplifié.

Si le stockage est limité, examinez les grandes sources de données pour déterminer ce que vous devez rassembler et combien de temps vous devez conserver. Avec certaines sources de données volumineuses, vous devrez peut-être simplement collecter des données pour une analyse rapide.

Vous pouvez ensuite stocker les informations localement pour un traitement ultérieur. Si vous ne disposez pas de suffisamment de stockage pour toutes ces données, vous pouvez traiter les données «à la volée» et conserver uniquement les informations pertinentes localement. La durée de disponibilité des données volumineuses dépend de plusieurs facteurs:

Quelle quantité de données est conservée à la source?
Avez-vous besoin de traiter les données à plusieurs reprises?
Avez-vous besoin de traiter les données, de collecter des données supplémentaires et d'effectuer plus de traitement?
Avez-vous des règles ou des règlements exigeant le stockage de données?
Vos clients dépendent-ils de vos données pour leur travail?
Les données ont-elles encore une valeur ou ne sont-elles plus pertinentes?

En raison du volume, de la variété et de la vitesse des mégadonnées, vous devez comprendre la volatilité. Pour certaines sources, les données seront toujours là; pour d'autres, ce n'est pas le cas. Comprendre quelles données sont disponibles et pendant combien de temps peut vous aider à définir des exigences de rétention et des règles pour les données volumineuses.

En tant que consommateur, le big data aidera à définir un meilleur profil pour savoir comment et quand vous achetez des biens et services. En tant que patient, le big data permettra de définir une approche plus personnalisée des traitements et de la maintenance de la santé. En tant que professionnel, Big Data vous aidera à identifier de meilleures façons de concevoir et de livrer vos produits et services.

Cela ne se produira que lorsque le Big Data sera intégré dans les processus opérationnels des entreprises et des organisations.