Vidéo: Big Data : Intégration et analyse de données 2024
Les éléments fondamentaux de la plate-forme Big Data gèrent les données différemment de la base de données relationnelle traditionnelle. Ceci est dû au besoin d'avoir l'évolutivité et la haute performance requises pour gérer des données structurées et non structurées.
Les composants de l'écosystème Big Data allant de Hadoop à NoSQL DB, MongoDB, Cassandra et HBase ont tous leur propre approche pour extraire et charger des données. Par conséquent, vos équipes devront peut-être développer de nouvelles compétences pour gérer le processus d'intégration sur ces plateformes. Cependant, bon nombre des meilleures pratiques en matière de gestion des données de votre entreprise deviendront encore plus importantes à mesure que vous évoluerez dans le monde du Big Data.
Alors que le big data introduit un nouveau niveau de complexité d'intégration, les principes fondamentaux de base s'appliquent toujours. Votre objectif d'entreprise doit être axé sur la fourniture de données fiables et de qualité à l'organisation au bon moment et dans le bon contexte.
Pour garantir cette confiance, vous devez établir des règles communes pour la qualité des données, en mettant l'accent sur l'exactitude et l'exhaustivité des données. En outre, vous avez besoin d'une approche globale pour développer des métadonnées d'entreprise, en gardant une trace de la lignée de données et de la gouvernance pour prendre en charge l'intégration de vos données.
Pour prendre de bonnes décisions commerciales basées sur l'analyse de grandes quantités de données, cette information doit être fiable et comprise à tous les niveaux de l'organisation. Même s'il ne sera probablement pas rentable de trop se préoccuper de la qualité des données à l'étape exploratoire d'une analyse de données volumineuses, la qualité et la confiance devront éventuellement jouer un rôle si les résultats doivent être intégrés dans le processus opérationnel.
Vous devez créer une compréhension commune des définitions de données.
-
Aux premières étapes de votre analyse de Big Data, il est peu probable que vous ayez le même niveau de contrôle sur les définitions de données que sur vos données opérationnelles.Cependant, une fois que vous avez identifié les modèles les plus pertinents pour votre entreprise, vous devez pouvoir mapper les éléments de données à une définition commune. Vous devez développer un ensemble de services de données pour qualifier les données et les rendre cohérentes et finalement fiables.
-
Lorsque vos sources de données non structurées et volumineuses sont intégrées à des données opérationnelles structurées, vous devez être sûr que les résultats seront significatifs. Vous avez besoin d'un moyen rationalisé pour intégrer vos sources de données volumineuses et vos systèmes d'enregistrement.
-
Pour prendre de bonnes décisions en fonction des résultats de votre analyse Big Data, vous devez fournir des informations au bon moment et dans le bon contexte. Votre processus d'intégration de Big Data devrait assurer la cohérence et la fiabilité. Pour intégrer des données dans des environnements d'application mixtes, obtenez des données d'un environnement de données (source) vers un autre environnement de données (cible). Des technologies d'extraction, de transformation et de chargement (ETL) ont été utilisées pour ce faire dans les environnements d'entrepôt de données traditionnels. Le rôle d'ETL évolue pour gérer de nouveaux environnements de gestion de données comme Hadoop.
Dans un environnement Big Data, vous devrez peut-être combiner des outils prenant en charge les processus d'intégration par lots (à l'aide d'ETL) avec l'intégration en temps réel et la fédération sur plusieurs sources. Par exemple, une entreprise pharmaceutique peut avoir besoin de mélanger les données stockées dans son système de gestion des données de base (MDM) avec de grandes sources de données sur les résultats médicaux de l'utilisation des médicaments par les clients.
Les entreprises utilisent MDM pour faciliter la collecte, l'agrégation, la consolidation et la fourniture de données cohérentes et fiables de manière contrôlée dans toute l'entreprise. En outre, de nouveaux outils tels que Sqoop et Scribe sont utilisés pour prendre en charge l'intégration d'environnements Big Data. Vous trouvez également un intérêt croissant pour l'utilisation des technologies d'extraction, de chargement et de transformation (ELT). Ces technologies sont décrites ci-dessous.