Vidéo: " 2 degrés avant la fin du monde " - #DATAGUEULE 2024
Les exigences de sécurité et de confidentialité, couche 1 de la pile de Big Data, sont similaires aux exigences pour les environnements de données conventionnels. Les exigences de sécurité doivent être étroitement alignées sur les besoins spécifiques de l'entreprise. Des défis uniques surviennent lorsque le big data fait partie de la stratégie:
-
Accès aux données: L'accès des utilisateurs aux Big Data brutes ou calculées a à peu près le même niveau d'exigences techniques que les implémentations autres que Big Data. Les données ne devraient être disponibles que pour ceux qui ont un besoin professionnel légitime d'examiner ou d'interagir avec lui. La plupart des plates-formes principales de stockage de données ont des schémas de sécurité rigoureux et sont complétées par une capacité d'identité fédérée, fournissant un accès approprié à travers les nombreuses couches de l'architecture.
-
Accès aux applications: L'accès des applications aux données est également relativement simple d'un point de vue technique. La plupart des interfaces de programmation d'applications (API) offrent une protection contre l'utilisation ou l'accès non autorisé. Ce niveau de protection est probablement suffisant pour la plupart des implémentations de données volumineuses.
-
Cryptage des données: Le cryptage des données est l'aspect le plus difficile de la sécurité dans un environnement Big Data. Dans les environnements traditionnels, le cryptage et le décryptage des données mettent réellement l'accent sur les ressources des systèmes. Ce problème est exacerbé avec de grosses données. L'approche la plus simple consiste à fournir une capacité de calcul plus importante et plus rapide. Une approche plus tempérée consiste à identifier les éléments de données nécessitant ce niveau de sécurité et à chiffrer uniquement les éléments nécessaires.
-
Détection des menaces: L'inclusion des appareils mobiles et des réseaux sociaux augmente de manière exponentielle à la fois la quantité de données et les opportunités pour les menaces de sécurité. Il est donc important que les organisations adoptent une approche multi-périmètre de la sécurité.
Ainsi, l'infrastructure physique permet tout et l'infrastructure de sécurité protège tous les éléments de votre environnement Big Data. Le niveau suivant de la pile est constitué des interfaces qui fournissent un accès bidirectionnel à tous les composants de la pile, des applications d'entreprise aux flux de données provenant d'Internet.
Une partie importante de la conception de ces interfaces est la création d'une structure cohérente qui peut être partagée à l'intérieur et peut-être à l'extérieur de l'entreprise, ainsi qu'avec des partenaires technologiques et des partenaires commerciaux.
Pendant des décennies, les programmeurs ont utilisé des API pour fournir un accès aux implémentations logicielles. Les fournisseurs d'outils et de technologies feront de grands efforts pour s'assurer que la création de nouvelles applications utilisant leurs produits est une tâche relativement simple.Bien que très utile, il est parfois nécessaire pour les professionnels de l'informatique de créer des API personnalisées ou propriétaires exclusives à l'entreprise.
Vous devrez peut-être le faire pour obtenir un avantage concurrentiel, un besoin propre à votre organisation ou une autre demande commerciale, et ce n'est pas une tâche simple. Les API doivent être bien documentées et conservées pour préserver la valeur de l'entreprise. Pour cette raison, certaines entreprises choisissent d'utiliser les boîtes à outils API pour démarrer rapidement cette activité importante.
Les boîtes à outils API présentent quelques avantages par rapport aux API développées en interne. La première est que les toolkits de l'API sont des produits créés, gérés et gérés par un tiers indépendant. Deuxièmement, ils sont conçus pour résoudre une exigence technique spécifique.
Les défis du Big Data nécessitent une approche légèrement différente du développement ou de l'adoption de l'API. Parce qu'une grande partie des données n'est pas structurée et est générée en dehors du contrôle de votre entreprise, une nouvelle technique, appelée Natural Language Processing (NLP), apparaît comme la méthode préférée pour l'interfaçage entre les big data et vos applications.
NLP vous permet de formuler des requêtes avec la syntaxe du langage naturel au lieu d'un langage de requête formel comme SQL. Pour la plupart des utilisateurs de données volumineuses, il sera beaucoup plus facile de demander «Listez tous les consommateurs masculins mariés âgés de 30 à 40 ans résidant dans le sud-est des États-Unis et fans de NASCAR» que d'écrire une requête SQL de 30 lignes..
Étant donné que la collecte et le déplacement de données ont des caractéristiques très similaires, vous pouvez concevoir un ensemble de services pour collecter, nettoyer, transformer, normaliser et stocker des éléments volumineux dans le système de stockage de votre choix.
Pour créer autant de flexibilité que nécessaire, l'usine peut être pilotée avec des descriptions d'interface écrites en langage XML (Extensible Markup Language). Ce niveau d'abstraction permet de créer facilement et rapidement des interfaces spécifiques sans avoir besoin de créer des services spécifiques pour chaque source de données.
En pratique, vous pouvez créer une description des interfaces d'application SAP ou Oracle en utilisant quelque chose comme XML. Chaque interface utiliserait le même logiciel sous-jacent pour migrer les données entre l'environnement Big Data et l'environnement d'application de production, indépendamment des spécificités de SAP ou d'Oracle. Si vous avez besoin de recueillir des données à partir de sites sociaux sur Internet, la pratique serait identique.
Décrivez les interfaces aux sites en XML, puis engagez les services pour déplacer les données d'avant en arrière. Généralement, ces interfaces sont documentées à l'usage des technologues internes et externes.