Vidéo: Algorithmes pour flux de données 2024
Lorsque les données circulent en masse quantités, tout stocker peut être difficile, voire impossible. En fait, stocker tout cela pourrait même ne pas être utile. Voici quelques chiffres de ce que vous pouvez espérer voir arriver en une minute sur Internet:
- 150 millions d'e-mails envoyés
- 350 000 nouveaux tweets envoyés sur Twitter
- 2. 4 millions de requêtes demandées sur Google
- 700 000 personnes se sont connectées à leur compte sur Facebook
Compte tenu de ces volumes, accumuler les données toute la journée pour l'analyse incrémentale pourrait ne pas sembler efficace. Vous le stockez simplement quelque part et vous l'analysez le jour suivant ou après (ce qui est la stratégie d'archivage répandue typique des bases de données et des entrepôts de données). Cependant, les requêtes de données utiles ont tendance à poser des questions sur les données les plus récentes dans le flux, et les données deviennent moins utiles lorsqu'elles vieillissent (dans certains secteurs, tels que financier, un jour peut prendre beaucoup de temps).
Parce que les nouveaux flux de données peuvent rendre obsolètes les traitements antérieurs sur les anciennes données et que la procrastination n'est pas une solution, les gens ont conçu plusieurs stratégies pour traiter instantanément des volumes de données massifs et variables. Les personnes utilisent trois méthodes pour traiter de grandes quantités de données:
Stocké:
- Certaines données sont stockées car elles peuvent aider à répondre à des questions peu claires ultérieurement. Cette méthode repose sur des techniques pour la stocker immédiatement et l'analyser très rapidement, aussi massive soit-elle. Résumé:
- Certaines données sont résumées parce que le fait de tout garder tel quel n'a aucun sens; seules les données importantes sont conservées. Consommé:
- Les données restantes sont consommées car leur utilisation est prédéterminée. Les algorithmes peuvent instantanément lire, digérer et transformer les données en informations. Après cela, le système oublie les données pour toujours. Quand on parle de données massives arrivant dans un système informatique, on l'entend souvent comparé à l'eau: des données en continu, des flux de données, des tuyaux d'incendie de données.
Vous découvrez comment les flux de données consomment de l'eau du robinet: l'ouverture du robinet vous permet de stocker l'eau dans des tasses ou des bouteilles ou de l'utiliser pour cuisiner, frotter des aliments, nettoyer des assiettes ou se laver les mains. En tout cas, la majeure partie ou la totalité de l'eau a disparu, mais elle s'avère très utile et même vitale.