Flux Flux de données - nuls - Finances personnelles 2025

Vidéo: Algorithmes pour flux de données 2025

Lorsque les données circulent en masse quantités, tout stocker peut être difficile, voire impossible. En fait, stocker tout cela pourrait même ne pas être utile. Voici quelques chiffres de ce que vous pouvez espérer voir arriver en une minute sur Internet:

150 millions d'e-mails envoyés
350 000 nouveaux tweets envoyés sur Twitter
2. 4 millions de requêtes demandées sur Google
700 000 personnes se sont connectées à leur compte sur Facebook

Compte tenu de ces volumes, accumuler les données toute la journée pour l'analyse incrémentale pourrait ne pas sembler efficace. Vous le stockez simplement quelque part et vous l'analysez le jour suivant ou après (ce qui est la stratégie d'archivage répandue typique des bases de données et des entrepôts de données). Cependant, les requêtes de données utiles ont tendance à poser des questions sur les données les plus récentes dans le flux, et les données deviennent moins utiles lorsqu'elles vieillissent (dans certains secteurs, tels que financier, un jour peut prendre beaucoup de temps).

Parfois, rendant les choses encore plus difficiles à gérer, les données peuvent arriver si vite et en si grandes quantités qu'il est impossible de les écrire sur le disque: Les nouvelles informations arrivent plus vite que le temps nécessaire pour les écrire. disque dur. C'est un problème typique des expériences de particules avec des accélérateurs de particules tels que le Large Hadron Collider, qui demande aux scientifiques de décider quelles données conserver. Bien sûr, vous pouvez mettre les données en file d'attente pendant un certain temps, mais pas trop longtemps, car la file d'attente va rapidement se développer et devenir impossible à maintenir. Par exemple, si elles sont conservées en mémoire, les données de la file d'attente entraîneront bientôt une erreur de mémoire insuffisante.

Parce que les nouveaux flux de données peuvent rendre obsolètes les traitements antérieurs sur les anciennes données et que la procrastination n'est pas une solution, les gens ont conçu plusieurs stratégies pour traiter instantanément des volumes de données massifs et variables. Les personnes utilisent trois méthodes pour traiter de grandes quantités de données:

Stocké:

Certaines données sont stockées car elles peuvent aider à répondre à des questions peu claires ultérieurement. Cette méthode repose sur des techniques pour la stocker immédiatement et l'analyser très rapidement, aussi massive soit-elle. Résumé:
Certaines données sont résumées parce que le fait de tout garder tel quel n'a aucun sens; seules les données importantes sont conservées. Consommé:
Les données restantes sont consommées car leur utilisation est prédéterminée. Les algorithmes peuvent instantanément lire, digérer et transformer les données en informations. Après cela, le système oublie les données pour toujours. Quand on parle de données massives arrivant dans un système informatique, on l'entend souvent comparé à l'eau: des données en continu, des flux de données, des tuyaux d'incendie de données.

Vous découvrez comment les flux de données consomment de l'eau du robinet: l'ouverture du robinet vous permet de stocker l'eau dans des tasses ou des bouteilles ou de l'utiliser pour cuisiner, frotter des aliments, nettoyer des assiettes ou se laver les mains. En tout cas, la majeure partie ou la totalité de l'eau a disparu, mais elle s'avère très utile et même vitale.