Table des matières:
- Comment utiliser les visualisations tabulaires pour l'analyse prédictive
- Diagrammes à barres utilisés dans l'analyse prédictive
- Principes de base des camemberts pour l'analyse prédictive
- Comment utiliser les graphiques pour l'analyse prédictive
- Notions de base des nuages de mots pour l'analyse prédictive
- Comment utiliser la représentation des oiseaux de flocage pour l'analyse prédictive
Vidéo: Présentation des méthodes de collecte et d’analyse de données dans l’évaluation d’impact 2024
Une image vaut mille mots, en particulier lorsque vous essayez de maîtriser vos données d'analyse prédictive. Lors de l'étape de prétraitement, pendant que vous préparez vos données, il est courant de visualiser ce que vous avez en main avant de passer à l'étape suivante.
Vous commencez par utiliser une feuille de calcul telle que Microsoft Excel pour créer une matrice de données composée de données candidates et de fonctionnalités (également appelées attributs ). Plusieurs progiciels de Business Intelligence (tels que Tableau) peuvent vous donner un aperçu préliminaire des données sur lesquelles vous allez appliquer des analyses.
Comment utiliser les visualisations tabulaires pour l'analyse prédictive
Les tableaux sont la représentation picturale la plus simple et la plus élémentaire des données. Les tables (également appelées tableurs ) sont constituées de lignes et de colonnes, qui correspondent respectivement aux objets et à leurs attributs mentionnés précédemment comme composant vos données. Par exemple, considérez les données de réseau social en ligne. Un objet de données peut représenter un utilisateur. Les attributs d'un utilisateur (objet de données) peuvent être des en-têtes de colonne: Sexe, Code postal ou Date de naissance.
Les cellules d'un tableau représentent des valeurs. La visualisation dans les tableaux peut vous aider à repérer facilement les valeurs d'attribut manquantes des objets de données.
Les tables peuvent également offrir la flexibilité d'ajouter de nouveaux attributs qui sont des combinaisons d'autres attributs. Par exemple, dans les données de réseau social, vous pouvez ajouter une autre colonne appelée Age, qui peut être facilement calculée - en tant qu'attribut dérivé - à partir de l'attribut Date de naissance existant. Les données du réseau social tabulaire affichent une nouvelle colonne, Age, créée à partir d'une autre colonne existante (Date de naissance).
Diagrammes à barres utilisés dans l'analyse prédictive
Les diagrammes à barres peuvent être utilisés pour détecter les pics ou les anomalies dans vos données. Vous pouvez l'utiliser pour chaque attribut afin d'afficher rapidement les valeurs minimales et maximales. Les graphiques à barres peuvent également être utilisés pour lancer une discussion sur la normalisation de vos données.
La normalisation est l'ajustement de certaines ou de toutes les valeurs d'attribut sur une échelle qui rend les données plus utilisables. Par exemple, vous pouvez facilement voir qu'il y a une erreur dans les données: La barre d'âge sur un enregistrement est négative. Cette anomalie est plus facilement représentée par un graphique à barres que par une table de données.
Principes de base des camemberts pour l'analyse prédictive
Les camemberts sont principalement utilisés pour afficher les pourcentages. Ils peuvent facilement illustrer la distribution de plusieurs éléments, et mettre en évidence les plus dominants. Les données brutes du réseau social sont représentées selon l'attribut Age.Remarquez que le graphique montre non seulement une distribution claire des mâles par rapport aux femelles, mais aussi une erreur probable: R comme une valeur pour le type de genre éventuellement créé lors de la collecte des données.
Comment utiliser les graphiques pour l'analyse prédictive
La théorie des graphes fournit un ensemble d'algorithmes puissants capables d'analyser des données structurées et représentées sous forme de graphique. En informatique, un graphique est une structure de données, un moyen d'organiser des données représentant les relations entre des paires d'objets de données. Un graphique se compose de deux parties principales:
-
sommets, également appelés nœuds
-
bords, qui connectent des paires de nœuds
Les arêtes peuvent être dirigées (dessinées en tant que flèches) et peuvent avoir des poids. Vous pouvez décider de placer un bord (flèche) entre deux nœuds (cercles) - dans ce cas, les membres du réseau social qui sont connectés à d'autres membres comme amis:
La direction de la flèche indique qui "amis" ou qui initie des interactions la plupart du temps.
Notions de base des nuages de mots pour l'analyse prédictive
Considérons une liste de mots ou de concepts arrangés comme nuage de mots - une représentation graphique de tous les mots de la liste, montrant la taille de chaque mot proportionnel à une mesure que vous spécifiez Par exemple, si vous avez une feuille de calcul de mots et d'occurrences et que vous souhaitez identifier les mots les plus importants, essayez un nuage de mots.
Les nuages de mots fonctionnent parce que la plupart des données des organisations sont du texte; Un exemple commun est l'utilisation de termes de tendances par Twitter. Chaque terme de cette représentation a un poids qui affecte sa taille en tant qu'indicateur de son importance relative.
Une façon de définir ce poids pourrait être le nombre de fois qu'un mot apparaît dans votre collection de données. Plus un mot apparaît fréquemment, plus son poids est lourd - et plus il apparaît dans le nuage.
Comment utiliser la représentation des oiseaux de flocage pour l'analyse prédictive
Le comportement de flocage naturel en général est un système auto-organisateur dans lequel les objets (en particulier les êtres vivants) ont tendance à se comporter selon: a) l'environnement auquel ils appartiennent; (b) leurs réponses à d'autres objets existants. Le comportement de flocage des sociétés naturelles telles que celles des abeilles, des mouches, des oiseaux, des poissons et des fourmis - ou, d'ailleurs, les gens - est également connu comme intelligence de l'essaim .
Les oiseaux suivent des règles naturelles lorsqu'ils se comportent comme un troupeau. Les troupeaux sont des oiseaux situés à une certaine distance l'un de l'autre; ces oiseaux sont considérés comme similaires. Chaque oiseau se déplace selon les trois règles principales qui organisent le comportement de flocage.
-
Séparation: Les troupeaux ne doivent pas entrer en collision.
-
Alignement: Les flock-mates se déplacent dans la même direction moyenne que leurs voisins.
-
Cohésion: Les troupeaux se déplacent selon la position moyenne ou l'emplacement de leurs troupeaux.
La modélisation de ces trois règles peut permettre à un système analytique de simuler des comportements de flocage. En utilisant le comportement naturel auto-organisé des oiseaux de flocage, vous pouvez convertir une feuille de calcul simple en une visualisation.La clé est de définir la notion de similarité dans le cadre de vos données. Commencez avec quelques questions:
-
Qu'est-ce qui rend deux objets de données similaires dans vos données?
-
Quels attributs peuvent le mieux déterminer la similarité entre deux enregistrements de données?
Par exemple, dans les données de réseaux sociaux, les enregistrements de données représentent des utilisateurs individuels; les attributs qui les décrivent peuvent inclure l'âge, le code postal, le statut de la relation, la liste des amis, le nombre d'amis, les habitudes, les événements