Vidéo: Pourquoi privilégier un ELT à un ETL avec Snowflake ? 2024
Les outils ETL combinent trois fonctions importantes (extraction, transformation, chargement) nécessaires pour obtenir des données à partir d'un gros environnement de données et le mettre dans un autre environnement de données. Traditionnellement, ETL a été utilisé avec le traitement par lots dans les environnements d'entrepôt de données. Les entrepôts de données offrent aux utilisateurs métier un moyen de consolider les informations pour analyser et générer des rapports sur les données pertinentes à leurs activités. Les outils ETL sont utilisés pour transformer les données dans le format requis par les entrepôts de données.
La transformation est en fait effectuée dans un emplacement intermédiaire avant le chargement des données dans l'entrepôt de données. De nombreux fournisseurs de logiciels, notamment IBM, Informatica, Pervasive, Talend et Pentaho, fournissent des outils logiciels ETL.
ETL fournit l'infrastructure sous-jacente pour l'intégration en effectuant trois fonctions importantes:
-
Extraire: Lire les données de la base de données source.
-
Transformation: Convertit le format des données extraites afin qu'elles soient conformes aux exigences de la base de données cible. La transformation est effectuée en utilisant des règles ou en fusionnant des données avec d'autres données.
-
Charger: Écrire des données dans la base de données cible.
Cependant, ETL évolue pour prendre en charge l'intégration beaucoup plus que les entrepôts de données traditionnels. ETL peut prendre en charge l'intégration à travers les systèmes transactionnels, les banques de données opérationnelles, les plates-formes BI, les hubs MDM, le cloud et les plates-formes Hadoop. Les éditeurs de logiciels ETL étendent leurs solutions pour fournir l'extraction, la transformation et le chargement de Big Data entre Hadoop et les plates-formes de gestion de données traditionnelles.
Les outils ETL et logiciels pour d'autres processus d'intégration de données tels que le nettoyage, le profilage et l'audit de données travaillent tous sur différents aspects des données afin de garantir leur fiabilité. Les outils ETL intègrent des outils de qualité des données, et beaucoup incorporent des outils pour le nettoyage des données, le mappage des données et l'identification du lignage des données. Avec ETL, vous extrayez uniquement les données dont vous aurez besoin pour l'intégration.
Des outils ETL sont nécessaires pour le chargement et la conversion de données structurées et non structurées dans Hadoop. Les outils ETL avancés peuvent lire et écrire plusieurs fichiers en parallèle depuis et vers Hadoop pour simplifier la fusion des données dans un processus de transformation commun. Certaines solutions intègrent des bibliothèques de transformations ETL prédéfinies pour les données de transaction et d'interaction qui s'exécutent sur Hadoop ou sur une infrastructure de grille traditionnelle.
La transformation de données consiste à modifier le format des données afin qu'elles puissent être utilisées par différentes applications.Cela peut signifier un changement du format dans lequel les données sont stockées dans le format requis par l'application qui utilisera les données. Ce processus comprend également des instructions de mappage afin que les applications sachent comment obtenir les données à traiter.
Le processus de transformation des données est beaucoup plus complexe en raison de la croissance vertigineuse de la quantité de données non structurées. Une application métier telle qu'une gestion de la relation client a des exigences spécifiques sur la manière dont les données doivent être stockées. Les données sont susceptibles d'être structurées dans les lignes et les colonnes organisées d'une base de données relationnelle. Les données sont semi-structurées ou non structurées si elles ne respectent pas les exigences de format rigides.
Les informations contenues dans un message électronique sont considérées comme non structurées, par exemple. Certaines des informations les plus importantes d'une entreprise se trouvent dans des formulaires non structurés et semi-structurés tels que des documents, des messages électroniques, des formats de messagerie complexes, des interactions client, des transactions et des informations provenant d'applications packagées telles que ERP et CRM.
Les outils de transformation de données ne sont pas conçus pour fonctionner correctement avec des données non structurées. En conséquence, les entreprises qui ont besoin d'incorporer des informations non structurées dans leur processus décisionnel ont été confrontées à une quantité importante de codage manuel pour réaliser l'intégration de données requise.
Compte tenu de la croissance et de l'importance des données non structurées pour la prise de décision, les solutions ETL des principaux fournisseurs commencent à proposer des approches standardisées pour transformer les données non structurées afin de les intégrer plus facilement aux données structurées opérationnelles.