Vidéo: Hadoop, c'est quoi ? 2024
Les innovateurs des moteurs de recherche comme Yahoo! et Google ont été confrontés à un problème de données de tourbière. Ils avaient besoin de trouver un moyen de donner un sens aux énormes quantités de données que leurs moteurs collectaient. Ces entreprises devaient à la fois comprendre quelles informations elles collectaient et comment elles pouvaient monétiser ces données pour soutenir leur modèle d'affaires.
Hadoop a été développé car il représente le moyen le plus pragmatique pour permettre aux entreprises de gérer facilement d'énormes volumes de données. Hadoop a permis de décomposer les gros problèmes en plus petits éléments afin que l'analyse puisse être effectuée rapidement et de manière rentable.
En décomposant le gros problème de données en petits morceaux qui pourraient être traités en parallèle, vous pouvez traiter l'information et regrouper les petites pièces pour présenter les résultats.
Hadoop a été construit à l'origine par Yahoo! ingénieur nommé Doug Cutting et est maintenant un projet open source géré par la Fondation Apache Software. Il est disponible sous la licence Apache v2. 0.
Hadoop est un élément fondamental de notre volonté de capturer et de traiter les mégadonnées. Hadoop est conçu pour paralléliser le traitement des données entre les nœuds de calcul afin d'accélérer les calculs et de masquer la latence. À la base, Hadoop a deux composants principaux:
-
Hadoop Distributed File System: Un cluster de stockage de données fiable, à bande passante élevée et à faible coût qui facilite la gestion des fichiers associés sur les machines.
-
Moteur MapReduce: Implémentation parallèle / distribuée de l'algorithme MapReduce.
Hadoop est conçu pour traiter d'énormes quantités de données structurées et non structurées (téraoctets en pétaoctets) et est implémenté sur des racks de serveurs de base en tant que cluster Hadoop. Les serveurs peuvent être ajoutés ou supprimés dynamiquement du cluster, car Hadoop est conçu pour être «auto-cicatrisant». "En d'autres termes, Hadoop est capable de détecter les changements, y compris les pannes, et de s'adapter à ces changements et de continuer à fonctionner sans interruption.