Vidéo: Big data and football performance 2025
Le simple fait d'avoir un ordinateur plus rapide ne suffit pas à garantir le bon niveau de performance pour gérer les mégadonnées. Vous devez être en mesure de distribuer les composants de votre service Big Data sur une série de nœuds. En calcul distribué, un nœud est un élément contenu dans un groupe de systèmes ou dans un rack.
Un nœud inclut généralement le processeur, la mémoire et un type de disque. Cependant, un nœud peut également être un processeur lame et une mémoire qui dépendent du stockage à proximité dans un rack.
Dans un environnement Big Data, ces nœuds sont généralement regroupés pour fournir une échelle. Par exemple, vous pouvez commencer avec une analyse de données volumineuses et continuer à ajouter d'autres sources de données. Pour s'adapter à la croissance, une organisation ajoute simplement plus de nœuds dans une grappe afin qu'elle puisse évoluer pour répondre aux besoins croissants.
Cependant, il ne suffit pas simplement d'augmenter le nombre de nœuds dans le cluster. Au contraire, il est important de pouvoir envoyer une partie de l'analyse de Big Data à différents environnements physiques. L'endroit où vous envoyez ces tâches et comment vous les gérez fait la différence entre le succès et l'échec.
Dans certaines situations complexes, vous pouvez exécuter plusieurs algorithmes différents en parallèle, même au sein d'un même cluster, pour atteindre la vitesse d'analyse requise. Pourquoi exécuteriez-vous différents algorithmes Big Data en parallèle dans le même rack? Plus les distributions de fonctions sont rapprochées, plus elles peuvent être exécutées rapidement.
Bien qu'il soit possible de distribuer l'analyse des données volumineuses sur les réseaux pour tirer parti de la capacité disponible, vous devez effectuer ce type de distribution en fonction des exigences de performances. Dans certaines situations, la vitesse de traitement prend le pas. Cependant, dans d'autres situations, obtenir des résultats rapidement est l'exigence. Dans cette situation, vous voulez vous assurer que les fonctions réseau sont proches les unes des autres.
En général, l'environnement Big Data doit être optimisé pour le type de tâche d'analyse. Par conséquent, l'évolutivité est la clé de voûte de la réussite du traitement des données volumineuses. Bien qu'il soit théoriquement possible d'exploiter un grand environnement de données dans un seul grand environnement, ce n'est pas pratique.
Pour comprendre les besoins d'évolutivité du Big Data, il suffit de regarder l'évolutivité du cloud et de comprendre à la fois les exigences et l'approche. À l'instar du cloud computing, le big data nécessite l'inclusion de réseaux rapides et de grappes peu coûteuses de matériel pouvant être combinées dans des racks pour augmenter les performances. Ces clusters sont pris en charge par l'automatisation logicielle qui permet la mise à l'échelle dynamique et l'équilibrage de charge.
La conception et les implémentations de MapReduce sont d'excellents exemples de la manière dont l'informatique distribuée peut rendre les données volumineuses visibles sur le plan opérationnel et abordables. En substance, les entreprises sont à l'un des tournants uniques dans l'informatique où les concepts technologiques se réunissent au bon moment pour résoudre les bons problèmes. La combinaison de l'informatique distribuée, de systèmes matériels améliorés et de solutions pratiques telles que MapReduce et Hadoop modifie profondément la gestion des données.