Vidéo: Hadoop&cie - 01 - Introduction à Hadoop 2024
Hadoop Distributed File System (HDFS) est conçu pour stocker des données sur un matériel peu coûteux et plus fiable. Peu coûteux a un attrait particulier, mais il soulève des inquiétudes quant à la fiabilité du système dans son ensemble, en particulier pour assurer la haute disponibilité des données.
En prévision d'un désastre, les cerveaux de HDFS ont pris la décision de mettre en place le système afin qu'il puisse stocker trois (compter - trois) copies de chaque bloc de données.
HDFS suppose que chaque unité de disque et chaque nœud esclave sont intrinsèquement peu fiables, il est donc évident que l'on doit choisir avec soin où les trois copies des blocs de données sont stockées.
La figure montre comment les blocs de données du fichier précédent sont entrelacés sur le cluster Hadoop - ce qui signifie qu'ils sont distribués uniformément entre les nœuds esclaves afin qu'une copie du bloc reste disponible quel que soit le disque, nœud ou pannes de rack.
Le fichier affiché comporte cinq blocs de données, étiquetés a, b, c, d et e. Si vous regardez de plus près, vous pouvez voir que ce cluster particulier est composé de deux racks avec deux nœuds chacun, et que les trois copies de chaque bloc de données ont été réparties sur les différents nœuds esclaves.
Chaque composant du cluster Hadoop est considéré comme un point de défaillance potentiel. Par conséquent, lorsque HDFS stocke les répliques des blocs d'origine dans le cluster Hadoop, il essaie de s'assurer que les répliques de bloc sont stockées dans différents points de défaillance.
Par exemple, jetez un coup d'œil au bloc A. Au moment où il fallait le stocker, le nœud esclave 3 a été choisi et la première copie du bloc A y a été stockée. Pour les systèmes à plusieurs racks, HDFS détermine ensuite que les deux copies restantes du bloc A doivent être stockées dans un autre rack. La deuxième copie du bloc A est donc stockée sur le nœud esclave 1.
La copie finale peut être stockée sur le même rack que la deuxième copie, mais pas sur le même nœud esclave, elle est donc stockée sur le nœud esclave 2.