Vidéo: Big Data avec Hadoop et MapR - Tugdual Grall & David Pilato 2024
L'idée des moteurs ETL d'inspiration Hadoop a gagné en popularité ces dernières années. Après tout, Hadoop est une plate-forme de stockage et de traitement de données flexible qui peut prendre en charge d'énormes quantités de données et d'opérations sur ces données. Dans le même temps, il est tolérant aux pannes et offre la possibilité de réduire les coûts en capital et en logiciels.
Malgré la popularité de Hadoop en tant que moteur ETL, beaucoup de gens (y compris une célèbre firme d'analystes) ne recommandent pas Hadoop comme seule technologie pour votre stratégie ETL. Ceci est dû en grande partie au fait que le développement de flux ETL nécessite une grande expertise des systèmes de base de données existants de votre organisation, de la nature même des données et des rapports et applications qui en dépendent.
Vous devez coder des éléments tels que le débogage parallèle, les services de gestion des applications (tels que le contrôle du pointage et des erreurs et la gestion des événements). En outre, tenez compte des exigences de l'entreprise telles que la glossarisation et la possibilité d'afficher la lignée de vos données.
Même pour les systèmes de bases de données relationnelles, l'ETL est suffisamment complexe pour qu'il existe des produits spécialisés populaires qui fournissent des interfaces pour la gestion et le développement des flux ETL. Certains de ces produits sont désormais compatibles avec l'ETL basé sur Hadoop et d'autres développements basés sur Hadoop. Toutefois, en fonction de vos besoins, vous devrez peut-être écrire votre propre code pour prendre en charge votre logique de transformation.