Vidéo: Big Data : définition par Patrice Poiraud, Directeur de l'initiative Big Data Analytics - IBM France 2024
L'analyse des données volumineuses a fait l'objet de beaucoup de publicité récemment, et pour cause. Vous aurez besoin de connaître les caractéristiques de l'analyse de Big Data si vous voulez faire partie de ce mouvement. Les entreprises savent qu'il existe quelque chose, mais jusqu'à récemment, elles n'ont pas été en mesure de l'exploiter. Cette poussée de l'analyse est un aspect passionnant du mouvement de l'analyse des données volumineuses.
Les entreprises sont ravies de pouvoir accéder aux données qu'elles collectent ou souhaitent analyser, mais elles n'ont pas été en mesure de gérer ou d'analyser efficacement. Cela peut impliquer la visualisation d'énormes quantités de données disparates, ou cela peut impliquer un streaming analysé avancé en temps réel. Il est évolutif à certains égards et révolutionnaire dans d'autres.
Alors, qu'est-ce qui change quand votre entreprise pousse l'analyse des données volumineuses? L'infrastructure prenant en charge l'analyse de Big Data est différente et les algorithmes ont été modifiés pour prendre en compte l'infrastructure.
L'analyse des données volumineuses doit être envisagée sous deux angles:
-
Axé sur la décision
-
Axé sur l'action
L'analyse décisionnelle s'apparente davantage à l'intelligence d'affaires traditionnelle. Examinez des sous-ensembles et des représentations sélectifs de sources de données plus importantes et essayez d'appliquer les résultats au processus de prise de décision. Il est certain que ces décisions pourraient entraîner une action ou un changement de processus, mais le but de l'analyse est d'augmenter la prise de décision.
L'analyse orientée vers l'action est utilisée pour la réponse rapide, lorsqu'un modèle émerge ou que des types spécifiques de données sont détectés et qu'une action est requise. Tirer parti des grandes données à travers l'analyse et provoquer des changements de comportement proactifs ou réactifs offrent un grand potentiel pour les adopteurs précoces.
Trouver et utiliser des mégadonnées en créant des applications d'analyse peut être la clé de l'extraction de la valeur le plus tôt possible. Pour accomplir cette tâche, il est plus efficace de créer ces applications personnalisées à partir de zéro ou en exploitant des plates-formes et / ou des composants.
D'abord, regardez quelques-unes des caractéristiques supplémentaires de l'analyse de Big Data qui la distinguent des types traditionnels d'analyse, à part les trois V du volume, de la vélocité et de la variété:
-
programmatique. L'un des plus grands changements dans l'analyse est le fait que par le passé vous traitiez des ensembles de données que vous pouviez charger manuellement dans une application et explorer. Avec l'analyse des données volumineuses, vous pouvez être confronté à une situation dans laquelle vous pouvez commencer avec des données brutes qui doivent souvent être traitées par programmation pour effectuer n'importe quel type d'exploration en raison de l'échelle des données.
-
Il peut être piloté par les données. Alors que de nombreux scientifiques utilisent une approche basée sur des hypothèses pour l'analyse des données (développer une prémisse et collecter des données pour voir si cette prémisse est correcte), vous pouvez également utiliser les données pour conduire l'analyse. quantités de celui-ci. Par exemple, vous pouvez utiliser un algorithme d'apprentissage automatique pour effectuer ce type d'analyse sans hypothèse.
-
Il peut utiliser beaucoup d'attributs . Dans le passé, vous aviez peut-être géré des centaines d'attributs ou de caractéristiques de cette source de données. Il se peut maintenant que vous manipuliez des centaines de gigaoctets de données composées de milliers d'attributs et de millions d'observations. Tout se passe maintenant à plus grande échelle.
-
Il peut être itératif. Plus de puissance de calcul signifie que vous pouvez itérer sur vos modèles jusqu'à ce que vous les obteniez comme vous le voulez. Voici un exemple. Supposons que vous construisiez un modèle qui essaie de trouver les prédicteurs pour certains comportements client associés. Vous pouvez commencer à extraire un échantillon de données raisonnable ou à vous connecter à l'emplacement des données. Vous pourriez construire un modèle pour tester une hypothèse.
Alors qu'auparavant, vous n'aviez peut-être pas assez de mémoire pour que votre modèle fonctionne efficacement, vous aurez besoin d'une énorme quantité de mémoire physique pour effectuer les itérations nécessaires à la formation de l'algorithme. Il peut également être nécessaire d'utiliser des techniques de calcul avancées comme le traitement du langage naturel ou des réseaux de neurones qui font automatiquement évoluer le modèle en fonction de l'apprentissage à mesure que de nouvelles données sont ajoutées.
-
Il peut être rapide d'obtenir les cycles de calcul dont vous avez besoin en tirant parti d'une infrastructure basée sur le cloud en tant que service. Avec les plates-formes IaaS (Infrastructure as a Service) telles qu'Amazon Cloud Services (ACS), vous pouvez provisionner rapidement un cluster de machines pour intégrer de grands ensembles de données et les analyser rapidement.