Vidéo: Big Data Paris - Doug Cutting - origines Hadoop 2025
MapReduce devient de plus en plus utile pour le big data. Au début des années 2000, certains ingénieurs de Google se sont penchés sur l'avenir et ont déterminé que leurs solutions actuelles pour les applications telles que l'exploration Web, la fréquence des requêtes et autres étaient adéquates pour la plupart des exigences existantes. Web mis à l'échelle pour de plus en plus d'utilisateurs.
Ces ingénieurs ont déterminé que si le travail pouvait être réparti sur des ordinateurs bon marché puis connectés sur le réseau sous la forme d'un «cluster», ils pourraient résoudre le problème. La distribution seule n'était pas une réponse suffisante. Cette répartition du travail doit être effectuée en parallèle pour les trois raisons suivantes:
-
Le traitement doit pouvoir s'étendre et se contracter automatiquement.
-
Le traitement doit pouvoir se poursuivre indépendamment des défaillances du réseau ou des systèmes individuels.
-
Les développeurs qui utilisent cette approche doivent pouvoir créer des services facilement exploitables par d'autres développeurs. Par conséquent, cette approche doit être indépendante de l'endroit où les données et les calculs ont été exécutés.
MapReduce a été conçu comme un modèle de programmation générique. Certaines des implémentations initiales fournissaient toutes les exigences clés de l'exécution parallèle, de la tolérance aux pannes, de l'équilibrage de la charge et de la manipulation des données. Les ingénieurs en charge du projet ont nommé l'initiative MapReduce parce qu'elle combine deux capacités de langages informatiques fonctionnels existants: map et réduisent .
Les ingénieurs de Google ont conçu MapReduce pour résoudre un problème pratique spécifique. Par conséquent, il a été conçu comme un modèle de programmation combiné avec la mise en œuvre de ce modèle - en substance, une implémentation de référence.
L'implémentation de référence a été utilisée pour démontrer la faisabilité et l'efficacité du concept et pour aider à s'assurer que ce modèle serait largement adopté par l'industrie informatique. Au fil des années, d'autres implémentations de MapReduce ont été créées et sont disponibles en tant que produits open source et commerciaux.