Vidéo: Cash investigation - Au secours, mon patron est un algorithme (Intégrale) 2024
La race humaine se trouve aujourd'hui à un croisement incroyable de volumes de données sans précédent, générés par un matériel de plus en plus petit et puissant, analysé par des algorithmes processus a aidé à développer. Ce n'est pas simplement une question de volume, ce qui en soi est un défi difficile.
Formalisé par la société de recherche Gartner en 2001 puis repris et étendu par d'autres entreprises, comme IBM, le big data peut être résumé par quatre V représentant ses principales caractéristiques:
- Volume: Quantité de données
- Vitesse: Vitesse de génération des données
- Variété: Nombre et types de sources de données
- Veracity: La qualité et la voix autorisée des données (quantification des erreurs, des données erronées et du bruit mélangé aux signaux), une mesure de l'incertitude des données
Chaque caractéristique Big Data offre un défi et une opportunité. Par exemple, le volume considère la quantité de données utiles. Ce qu'une organisation considère comme un big data peut être de petites données pour une autre. L'impossibilité de traiter les données sur une seule machine ne rend pas les données importantes. Ce qui différencie les grandes données des données habituelles, c'est qu'elles forcent une organisation à réviser ses méthodes et solutions courantes, et poussent les technologies et les algorithmes actuels à anticiper.
La variété permet l'utilisation du big data pour défier la méthode scientifique, comme expliqué par cette étape importante et un article très discuté écrit par Chris Anderson, rédacteur en chef de Wired à l'époque, sur la façon dont de grandes quantités de données peuvent aider les découvertes scientifiques en dehors de la méthode scientifique. L'auteur s'appuie sur l'exemple de Google dans les secteurs de la publicité et de la traduction, où l'entreprise peut se faire remarquer sans utiliser de modèles ou de théories spécifiques, mais en appliquant des algorithmes pour apprendre des données. Comme dans la publicité, les données scientifiques (physique, biologie) peuvent soutenir l'innovation qui permet aux scientifiques d'approcher des problèmes sans hypothèses mais en considérant les variations trouvées dans de grandes quantités de données et par des algorithmes de découverte.
La caractéristique de véracité aide à la démocratisation des données elles-mêmes. Dans le passé, les organisations accumulaient des données parce qu'elles étaient précieuses et difficiles à obtenir. À ce stade, diverses sources créent des données de telle sorte que l'accumulation de données est dénuée de sens (90% des données mondiales ont été créées au cours des deux dernières années), il n'y a donc aucune raison de limiter l'accès. Les données se transforment en un tel produit qu'il existe de nombreux programmes de données ouvertes dans le monde entier.(Les États-Unis ont une longue tradition de libre accès, les premiers programmes de données ouvertes remontent aux années 1970 lorsque l'Administration nationale océanique et atmosphérique, la NOAA, a commencé à diffuser librement des données météorologiques au public.) Cependant, parce que les données sont devenues, l'incertitude de ces données est devenue un problème. Vous ne savez plus si les données sont complètement vraies car vous ne connaissez même pas sa source.
Les données sont devenues si omniprésentes que leur valeur ne figure plus dans les informations réelles (telles que les données stockées dans la base de données d'une entreprise). La valeur des données existe dans la façon dont vous l'utilisez. Ici, les algorithmes entrent en jeu et changent le jeu. Une entreprise comme Google se nourrit de données librement disponibles, telles que le contenu de sites Web ou le texte trouvé dans des textes et des livres accessibles au public. Pourtant, la valeur que Google extrait des données provient principalement de ses algorithmes. À titre d'exemple, la valeur des données réside dans l'algorithme PageRank (illustré au chapitre 11), qui est le fondement même de l'activité de Google. La valeur des algorithmes est également vraie pour d'autres sociétés. Le moteur de recommandation d'Amazon contribue pour une part significative aux revenus de l'entreprise. De nombreuses sociétés financières utilisent le trading algorithmique et le robo-conseil, tirant profit des données boursières librement disponibles et des informations économiques pour les investissements.