Accueil Finances personnelles Bases des données structurées et non structurées dans l'analyse prédictive - données fictives

Bases des données structurées et non structurées dans l'analyse prédictive - données fictives

Vidéo: L'importance des données non structurées en entreprise : usages, valeurs, avenirs ? 2025

Vidéo: L'importance des données non structurées en entreprise : usages, valeurs, avenirs ? 2025
Anonim

Les données contenues dans les bases de données, documents, e-mails et autres fichiers de données pour l'analyse prédictive peuvent être classées en tant que données structurées ou non structurées. Les données structurées sont bien organisées, suivent un ordre cohérent, sont relativement faciles à rechercher et à interroger, et peuvent être facilement consultées et comprises par une personne ou un programme informatique.

Un exemple classique de données structurées est une feuille de calcul Excel avec des colonnes étiquetées. Ces données structurées sont cohérentes; en-têtes de colonne - descriptions brèves et précises du contenu de chaque colonne - vous indiquent exactement le type de contenu auquel vous devez vous attendre.

Les données structurées sont généralement stockées dans des schémas bien définis tels que des bases de données. Il est généralement tabulaire, avec des colonnes et des lignes qui définissent clairement ses attributs.

D'autre part, les données non structurées ont tendance à être de forme libre, non tabulaires, dispersées et difficilement récupérables; ces données nécessitent une intervention délibérée pour en donner un sens. Divers e-mails, documents, pages Web et fichiers (texte, audio et / ou vidéo) dispersés sont des exemples de données non structurées.

Il est difficile de catégoriser le contenu des données non structurées. Il a tendance à être principalement du texte, il est généralement créé dans un méli-mélo de styles de forme libre, et trouver tous les attributs que vous pouvez utiliser pour le décrire ou le grouper n'est pas une mince affaire.

Le contenu des données non structurées est difficile à utiliser ou à comprendre par programmation. Les programmes d'ordinateur ne peuvent pas analyser ou générer des rapports sur de telles données, simplement parce qu'ils manquent de structure, n'ont pas de caractéristique dominante sous-jacente et que des éléments de données individuels n'ont aucun terrain d'entente.

En général, il y a un pourcentage plus élevé de données non structurées que de données structurées dans le monde. Les données non structurées nécessitent plus de travail pour les rendre utiles, de sorte qu'elles attirent davantage l'attention - elles ont donc tendance à consommer plus de temps.

Ne sous-estimez pas l'importance des données structurées et le pouvoir qu'elles apportent à votre analyse. Il est beaucoup plus efficace d'analyser des données structurées que d'analyser des données non structurées. Les données non structurées peuvent également être coûteuses à pré-traiter pour l'analyse lorsque vous construisez un projet d'analyse prédictive. La sélection des données pertinentes, leur nettoyage et les transformations subséquentes peuvent être longues et fastidieuses.

Les données nouvellement organisées résultant de ces étapes de prétraitement nécessaires peuvent ensuite être utilisées dans un modèle d'analyse prédictive. La transformation en gros des données non structurées peut cependant devoir attendre que votre modèle d'analyse prédictive soit opérationnel.

L'exploration de données et l'analyse de texte sont deux approches pour structurer des documents texte, en reliant leur contenu, en regroupant et en résumant leurs données, et en découvrant des modèles dans ces données. Les deux disciplines fournissent un riche cadre d'algorithmes et de techniques pour exploiter le texte dispersé à travers une mer de documents.

Il est également intéressant de noter que les plateformes de moteurs de recherche fournissent des outils facilement disponibles pour indexer les données et les rendre consultables.

Comparons les données structurées et non structurées.

Caractéristiques Structuré Non structuré
Association Organisé Dispersé et dispersé
Apparence Formellement défini Libre
Accessibilité Facile à accès et requête Difficile d'accéder et interroger
Disponibilité Pourcentage inférieur Pourcentage plus élevé
Analyse Efficacité pour analyser Un prétraitement supplémentaire est nécessaire

Les données non structurées ne sont pas complètement manque de structure - il suffit de le dénicher. Même le texte à l'intérieur des fichiers numériques est toujours associé à une structure, souvent affichée dans les métadonnées - par exemple, les titres des documents, les dates de dernière modification des fichiers et les noms des auteurs.

La même chose s'applique aux e-mails: le contenu peut être non structuré, mais des données structurées leur sont associées - par exemple, la date et l'heure d'envoi, le nom de leurs expéditeurs et destinataires, s'ils contiennent des pièces jointes.

La ligne de séparation entre les deux types de données n'est pas toujours claire. En général, vous pouvez toujours trouver certains attributs de données non structurées qui peuvent être considérés comme des données structurées. Que cette structure reflète le contenu de ces données - ou qu'elle soit utile dans l'analyse des données - n'est pas claire au mieux.

D'ailleurs, les données structurées peuvent contenir des données non structurées. Dans un formulaire Web, par exemple, les utilisateurs peuvent être invités à donner leur avis sur un produit en choisissant une réponse parmi plusieurs choix - mais également présentés avec une boîte de commentaires où ils peuvent fournir des commentaires supplémentaires.

Les réponses de plusieurs choix sont structurées; le champ de commentaire n'est pas structuré en raison de sa nature libre. De tels cas sont mieux compris comme un mélange de données structurées et non structurées. La plupart des données sont composées des deux.

Pour réussir un projet d'analyse prédictive, vous devez combiner vos données structurées et non structurées dans un format logique pouvant être analysé.

Bases des données structurées et non structurées dans l'analyse prédictive - données fictives

Le choix des éditeurs

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Windows, avec un W majuscule, tire son nom de sa caractéristique principale: Windows, avec un w minuscule. Se familiariser avec Windows signifie apprendre à ouvrir, fermer, redimensionner, déplacer et basculer entre les fenêtres, ce qui est la clé pour jongler avec succès avec plusieurs activités. Chaque programme que vous exécutez occupe sa propre fenêtre. Une fenêtre peut occuper une partie de ...

Comment accepter ou rejeter les cookies dans Safari - dummies

Comment accepter ou rejeter les cookies dans Safari - dummies

Un cookie est un petit fichier qu'un site Web enregistre automatiquement sur le disque dur de votre Mac. Il contient des informations, telles que vos préférences ou votre date de naissance, que le site utilisera lors de vos prochaines visites. Dans Mac OS X Snow Leopard, Safari vous permet de choisir d'accepter ou non tous les cookies ...

Le choix des éditeurs

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Pour créer une boîte ou une ligne dans QuarkXPress plus complexe qu'un simple rectangle, ovale ou starburst, vous entrez dans le domaine du chemin de Bézier. Si vous avez utilisé l'outil Plume dans Adobe Illustrator ou Photoshop, vous comprenez déjà les chemins de Bézier. Il faut un peu de pratique et un esprit détendu ...

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Le choix des éditeurs

Les connexions cachées sur le Nikon D5600 - les nuls

Les connexions cachées sur le Nikon D5600 - les nuls

Ouvrent les couvercles sur les côtés gauche et droit du Nikon D5600 caméra, et vous verrez plusieurs ports de connexions cachées. Les ports de connexion suivants sont indiqués sur cette image: Terminal d'accessoires: ce terminal accepte les accessoires suivants: câble déclencheur à distance Nikon MC-DC2; Télécommandes sans fil WR-1 et WR-R10; et les unités GPS GP-1 / GP-1A. I ...

Les connexions cachées sur votre Nikon D5200 - les nuls

Les connexions cachées sur votre Nikon D5200 - les nuls

ÉParpillés sur l'extérieur de votre appareil photo sont nombreuses commandes que vous utilisez pour changer d'image -prend des paramètres, revoir et modifier vos photos, et effectuer diverses autres opérations. Caché sous le couvercle sur le côté gauche de la caméra, vous trouverez les quatre ports de connexion suivants, étiquetés dans cette figure: Borne accessoire: Vous pouvez brancher le Nikon en option ...

Des boutons et autres commandes du Nikon D7500 - mannequins

Des boutons et autres commandes du Nikon D7500 - mannequins

C'est génial d'avoir une carte pour le boutons et commandes sur votre appareil photo, mais ce n'est pas beaucoup d'aide si vous ne pouvez pas vous rappeler quel bouton appuyer sur quand (et pourquoi). Alors, voici un aperçu des fonctions des contrôles les plus importants. (Certains contrôles ont des fonctions supplémentaires pendant certaines opérations, mais la table ...