Vidéo: Conférence Fabien Richert : Développer une approche critique des Big Data 2024
Hadoop est un framework de stockage de données sur de grands clusters de < matériel de base - matériel informatique de tous les jours abordable et facilement disponible - et exécution d'applications sur ces données Un cluster est un groupe d'ordinateurs interconnectés (appelés nœuds ) cela peut fonctionner ensemble sur le même problème.
Hadoop Ne cherchez pas là une signification majeure, c'est simplement le nom que le fils de Doug Cutting a donné à son éléphant en peluche (Doug Cutting est, bien sûr, le co-créateur de Hadoop.) Le nom est unique et facile à retenir -
Une application qui s'exécute sur Hadoop voit son travail divisé entre les nœuds (machines) du cluster et HDFS stocke les données qui seront traitées. Un cluster Hadoop peut s'étendre sur des milliers de machines, où HDFS stocke des données et les tâches MapReduce effectuent leur traitement à proximité des données, ce qui réduit les coûts d'E / S. MapReduce est extrêmement flexible et permet le développement d'une grande variété d'applications.
, un type de cluster utilisé principalement à des fins de calcul. Dans un cluster de calcul, de nombreux ordinateurs ( nœuds de calcul ) peuvent partager des charges de travail de calcul et tirer parti d'une très large bande passante agrégée dans le cluster. Les clusters Hadoop se composent généralement de quelques
nœuds maîtres qui contrôlent les systèmes de stockage et de traitement de Hadoop, et de nœuds esclaves qui stockent toutes les données du cluster. les données sont traitées.