L'analyse statistique des limites d'échantillonnage dans Hadoop - mannequins

Vidéo: Echantillonnage et estimation | Théorème central limite pour la moyenne 2025

L'analyse statistique est loin d'être une nouveauté, et il est certainement de vieilles nouvelles que cela dépend du traitement de grandes quantités de données pour acquérir de nouvelles perspectives. Cependant, la quantité de données traditionnellement traitées par ces systèmes était comprise entre 10 et 100 (ou centaines de) gigaoctets - et non pas les gammes de téraoctets ou de pétaoctets vues aujourd'hui, en d'autres termes.

Et cela nécessitait souvent une machine multitraitement symétrique (SMP) coûteuse avec autant de mémoire que possible pour contenir les données analysées. En effet, la plupart des algorithmes utilisés par les approches analytiques étaient assez "calcul intensifs" et étaient conçus pour fonctionner en mémoire - car ils nécessitent des passages multiples, et souvent fréquents, à travers les données.

Face à un matériel coûteux et à un engagement assez important en termes de temps et de RAM, les gens ont essayé de rendre la charge de travail analytique un peu plus raisonnable en analysant seulement un échantillonnage des données. L'idée était de garder les montagnes sur des montagnes de données stockées en toute sécurité dans les entrepôts de données, en déplaçant seulement un échantillonnage statistiquement significatif des données de leurs dépôts vers un moteur statistique.

Bien que l'échantillonnage soit une bonne idée en théorie, dans la pratique, il s'agit souvent d'une tactique peu fiable. Trouver un échantillonnage statistiquement significatif peut être difficile pour des ensembles de données éparses et / ou faussées, qui sont assez courants. Cela conduit à des échantillonnages mal évalués, qui peuvent introduire des valeurs aberrantes et des points de données anormaux, et peuvent, à leur tour, biaiser les résultats de votre analyse.