Accueil Finances personnelles Extraction de données pour Big Data - les nuls

Extraction de données pour Big Data - les nuls

Vidéo: How To Cloud - Big Data, Ep 4.2 : Outils Datawiz - FR 2024

Vidéo: How To Cloud - Big Data, Ep 4.2 : Outils Datawiz - FR 2024
Anonim

L'extraction de données implique l'exploration et l'analyse de grandes quantités de données pour trouver des modèles pour les mégadonnées. Les techniques sont issues des domaines de la statistique et de l'intelligence artificielle (IA), avec un peu de gestion de base de données dans le mix.

Généralement, l'objectif de l'exploration de données est la classification ou la prédiction. En classification, l'idée est de trier les données en groupes. Par exemple, un agent de commercialisation pourrait être intéressé par les caractéristiques de ceux qui ont répondu par rapport à ceux qui n'ont pas répondu à une promotion.

Ce sont deux classes. En prédiction, l'idée est de prédire la valeur d'une variable continue. Par exemple, un agent de commercialisation pourrait être intéressé à prédire ceux qui répondront à une promotion.

Les algorithmes typiques utilisés dans l'exploration de données sont les suivants:

  • Arbres de classification: Technique d'exploration de données populaire utilisée pour classer une variable catégorielle dépendante basée sur des mesures d'une ou de plusieurs variables prédictives. Le résultat est un arbre avec des nœuds et des liens entre les nœuds qui peuvent être lus pour former des règles if-then.

  • Régression logistique: Une technique statistique qui est une variante de la régression standard mais qui étend le concept à la classification. Il produit une formule qui prédit la probabilité de l'occurrence en fonction des variables indépendantes.

  • Réseaux de neurones: Algorithme logiciel modélisé d'après l'architecture parallèle des cerveaux animaux. Le réseau se compose de noeuds d'entrée, de couches masquées et de noeuds de sortie. Chaque unité reçoit un poids. Les données sont données au noeud d'entrée, et par un système d'essais et d'erreurs, l'algorithme ajuste les poids jusqu'à ce qu'il rencontre un certain critère d'arrêt. Certaines personnes ont comparé cela à une approche de boîte noire.

  • Techniques de clustering comme les voisins K-plus proches: Technique qui identifie des groupes d'enregistrements similaires. La technique K-plus proche voisin calcule les distances entre l'enregistrement et les points dans les données historiques (formation). Il affecte ensuite cet enregistrement à la classe de son voisin le plus proche dans un ensemble de données.

Voici un exemple d'arbre de classification. Considérons la situation où une compagnie de téléphone veut déterminer quels clients résidentiels sont susceptibles de déconnecter leur service.

La compagnie de téléphone a des informations qui comprennent les attributs suivants: combien de temps la personne a eu le service, combien il dépense pour le service, si le service a été problématique, s'il a le meilleur plan d'appel dont il a besoin, vit, quel âge il a, s'il a d'autres services groupés, de l'information concurrentielle sur les plans des autres transporteurs et s'il a toujours le service.

Bien sûr, vous pouvez trouver beaucoup plus d'attributs que celui-ci. Le dernier attribut est la variable de résultat; c'est ce que le logiciel utilisera pour classer les clients dans l'un des deux groupes - peut-être appelés stayers et risques de vol.

Le jeu de données est divisé en données d'apprentissage et en jeu de données de test. Les données d'apprentissage sont constituées d'observations (appelées attributs) et d'une variable de résultat (binaire dans le cas d'un modèle de classification) - dans ce cas, les stayers ou les risques de vol.

L'algorithme est exécuté sur les données d'apprentissage et génère un arbre qui peut être lu comme une série de règles. Par exemple, si les clients sont dans l'entreprise depuis plus de dix ans et ont plus de 55 ans, ils resteront probablement des clients fidèles.

Ces règles sont ensuite exécutées sur l'ensemble de données de test pour déterminer la qualité de ce modèle sur les «nouvelles données». "Des mesures de précision sont fournies pour le modèle. Par exemple, une technique populaire est la matrice de confusion. Cette matrice est un tableau qui fournit des informations sur le nombre de cas classés correctement ou incorrectement.

Si le modèle a l'air bien, il peut être déployé sur d'autres données, car il est disponible (c'est-à-dire, l'utiliser pour prédire de nouveaux cas de risque de vol). Sur la base de ce modèle, l'entreprise pourrait décider, par exemple, d'envoyer des offres spéciales aux clients qu'elle estime être des risques de vol.

Extraction de données pour Big Data - les nuls

Le choix des éditeurs

Comment les joueurs de baseball se faufilent sur les chemins de base - les nuls

Comment les joueurs de baseball se faufilent sur les chemins de base - les nuls

Après un joueur de baseball , un million de choses peuvent lui arriver - et le pire d'entre elles est de se faire éteindre. Ce qui suit est une courte liste des façons les plus courantes dont les coureurs de base subissent ce sort. Vous devriez vous référer à cela si vous voulez vous assurer que ...

Comment les batteurs deviennent une base dans le baseball - les mannequins

Comment les batteurs deviennent une base dans le baseball - les mannequins

Rentrent dans la base , et la première étape pour marquer des courses, ce qui est le moyen de gagner - et de perdre - des jeux. Ceci est une liste des façons dont les frappeurs peuvent obtenir sur la base, en balançant ou en ne balançant pas. Référez-vous à ce qui suit quand vous ne comprenez pas pourquoi et ...

Comment les Hitters gagnent en Baseball - les mannequins

Comment les Hitters gagnent en Baseball - les mannequins

Sont l'un des éléments fondamentaux du jeu - ils sont la monnaie du baseball, son équivalent du temps. Vous n'obtenez que 27 d'entre eux dans un jeu, donc l'équipe à l'attaque s'efforce de les éviter pendant que l'équipe défensive les implore. Reportez-vous à cette liste pour trouver les moyens les plus communs ...

Le choix des éditeurs

Taux de rotation des stocks et QuickBooks 2014 - les nuls

Taux de rotation des stocks et QuickBooks 2014 - les nuls

Dans QuickBooks, vous pouvez calculer et suivre votre taux de rotation des stocks. Le ratio de rotation des stocks mesure le nombre de fois où le solde de l'inventaire est épuisé au cours d'une période comptable. La formule est la suivante: coût des marchandises vendues / stock moyen Dans l'exemple d'activité décrit par le bilan et l'état des résultats du tableau 1-2, vous ...

Inventaire des investissements dans le Business Plan Workbook de QuickBooks - les nuls

Inventaire des investissements dans le Business Plan Workbook de QuickBooks - les nuls

Les chiffres Inventory Investments montrent le changement dans l'inventaire solde pour chaque période de prévision. Ce montant augmente lorsque l'inventaire vendu est inférieur à l'inventaire acquis. Ce montant diminue lorsque l'inventaire vendu est supérieur à l'inventaire acquis. En reconnaissant les changements dans ce solde de compte, le modèle reconnaît les effets de trésorerie ...

Garder votre QuickBooks 2014 Données confidentielles - mannequins

Garder votre QuickBooks 2014 Données confidentielles - mannequins

Données comptables est souvent des informations confidentielles. Vos données QuickBooks montrent combien d'argent vous avez à la banque, ce que vous devez aux créanciers, et combien (ou peu!) Profit de votre entreprise produit. Parce que cette information est privée, votre première préoccupation dans l'administration d'un système de comptabilité QuickBooks est de garder vos données confidentielles. Vous avez deux ...

Le choix des éditeurs

Sur l'alignement des images dans Adobe CS5 Dreamweaver - nuls

Sur l'alignement des images dans Adobe CS5 Dreamweaver - nuls

Sur l'alignement des images dans Adobe Creative Suite 5 (Adobe CS5) Dreamweaver est simple, mais les options disponibles peuvent sembler trop complexes. Les images et leur texte adjacent sont placés par défaut sur la même ligne de base, ce qui oblige le texte à s'exécuter sur une ligne à droite de l'image. Pour ...

Gérer les fichiers dans le panneau Fichiers Dreamweaver - les mannequins

Gérer les fichiers dans le panneau Fichiers Dreamweaver - les mannequins

Le panneau Fichiers de Dreamweaver est similaire à la gestion des fichiers fonctionnalité dans votre système d'exploitation (disons, Windows Explorer ou le Finder Mac). Gros problème: lorsque vous travaillez avec des fichiers faisant partie de votre site, utilisez le panneau Fichiers Dreamweaver au lieu de vos outils OS (ou d'autres outils comme Adobe Bridge) pour renommer, copier, ...

Objets dynamiques Photoshop dans Adobe CS5 Dreamweaver - nuls

Objets dynamiques Photoshop dans Adobe CS5 Dreamweaver - nuls

Si vous avez créé des illustrations ou des images préparées dans Photoshop, Vous pouvez placer les fichiers PSD d'origine directement dans vos pages Dreamweaver Adobe Creative Suite 5 (Adobe CS5). La fenêtre Aperçu de l'image vous permet d'enregistrer des fichiers Photoshop dans des formats d'image Web tels que GIF, JPEG et PNG et de redimensionner et de recadrer des illustrations avant de les placer sur ...