Accueil Finances personnelles Les limites des données dans Predictive Analytics - mannequins

Les limites des données dans Predictive Analytics - mannequins

Vidéo: Philip Evans: How data will transform business 2025

Vidéo: Philip Evans: How data will transform business 2025
Anonim

Comme de nombreux aspects de tout système d'entreprise, les données sont une création humaine - il est donc difficile d'en déterminer les limites l'obtenir. Voici un aperçu de certaines limitations que vous êtes susceptibles de rencontrer:

  • Les données peuvent être incomplètes. Des valeurs manquantes, voire l'absence d'une section ou d'une partie substantielle des données, pourraient limiter sa facilité d'utilisation.

    Par exemple, vos données peuvent ne couvrir qu'une ou deux conditions d'un ensemble plus important que vous essayez de modéliser - comme lorsqu'un modèle conçu pour analyser les performances boursières ne dispose que des données des cinq dernières années, ce qui fausse les deux les données et le modèle vers l'hypothèse d'un marché haussier.

    Au moment où le marché subit une correction qui mène à un marché baissier, le modèle ne s'adapte pas - simplement parce qu'il n'a pas été formé et testé avec des données représentant un marché baissier.

    Assurez-vous de regarder une période qui vous donne une image complète des fluctuations naturelles de vos données; vos données ne doivent pas être limitées par saisonnalité .

  • Si vous utilisez des données issues d'enquêtes, gardez à l'esprit que les personnes ne fournissent pas toujours des informations précises. Tout le monde ne répondra pas honnêtement au sujet de (combien de fois ils font de l'exercice - ou du nombre de boissons alcoolisées qu'ils consomment - par semaine. Les gens peuvent ne pas être malhonnêtes autant que gênés, mais les données sont encore faussées.

  • Les données collectées à partir de différentes sources peuvent varier en qualité et en format. Les données recueillies auprès de sources aussi diverses que les sondages, les courriels, les formulaires de saisie de données et le site Web de l'entreprise auront des attributs et des structures différents. Les données provenant de diverses sources peuvent ne pas avoir beaucoup de compatibilité entre les champs de données. Ces données nécessitent un prétraitement majeur avant d'être prêtes pour l'analyse. La barre latérale associée fournit un exemple.

Les données collectées à partir de plusieurs sources peuvent présenter des différences de formatage, des enregistrements en double et des incohérences entre les champs de données fusionnés. Attendez-vous à passer beaucoup de temps à nettoyer de telles données - et encore plus à valider sa fiabilité.

Pour déterminer les limites de vos données, veillez à:

  • Vérifiez toutes les variables que vous utiliserez dans votre modèle.

  • Évaluer l'étendue des données, en particulier au fil du temps, afin que votre modèle puisse éviter le piège de la saisonnalité.

  • Vérifiez les valeurs manquantes, identifiez-les et évaluez leur impact sur l'analyse globale.

  • Faites attention aux valeurs extrêmes (valeurs aberrantes) et décidez si vous souhaitez les inclure dans l'analyse.

  • Confirmez que le pool de données d'entraînement et de test est suffisamment important.

  • Assurez-vous que type de données (entiers, valeurs décimales ou caractères, etc.) est correct et définissez les limites supérieure et inférieure des valeurs possibles.

  • Accordez une attention particulière à l'intégration des données lorsque vos données proviennent de plusieurs sources.

Assurez-vous de bien comprendre vos sources de données et leur impact sur la qualité globale de vos données.

  • Choisissez un ensemble de données pertinent représentatif de l'ensemble de la population.

  • Choisissez les bons paramètres pour votre analyse.

Même après tout ce soin, ne soyez pas surpris si vos données ont encore besoin d'un prétraitement avant de pouvoir les analyser avec précision. Le pré-traitement prend souvent beaucoup de temps et nécessite beaucoup d'efforts car il doit résoudre plusieurs problèmes liés aux données d'origine. Ces problèmes incluent:

  • Toutes les valeurs manquantes dans les données.

  • Toute incohérence et / ou erreur existant dans les données.

  • Tout doublon ou valeur aberrante dans les données.

  • Toute normalisation ou autre transformation des données.

  • Toute donnée dérivée nécessaire à l'analyse.

Les limites des données dans Predictive Analytics - mannequins

Le choix des éditeurs

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Quand vous ' re sur une page LinkedIn et repérez le nom d'un membre que vous souhaitez inviter sur votre réseau, vous pouvez suivre ces étapes pour envoyer une demande de connexion à cette personne.

Comment rechercher LinkedIn par nom - mannequins

Comment rechercher LinkedIn par nom - mannequins

Lorsque vous souhaitez trouver une personne spécifique sur LinkedIn, vous pouvez recherche par nom. LinkedIn a développé des champs spéciaux de recherche de nom et de prénom pour vous aider à trouver cette personne. Lorsque vous effectuez une recherche par nom, vous devez entrer le nom de famille; entrer le prénom est facultatif. Lorsque vous êtes prêt à rechercher ...

Rechercher LinkedIn par mot-clé - dummies

Rechercher LinkedIn par mot-clé - dummies

Lorsque vous effectuez une recherche par mot-clé, LinkedIn analyse les profils de chacun pour trouver un mot correspondant. Vous pouvez mettre n'importe quel type de compétence, de mot à la mode, d'intérêt ou d'autre mot-clé qui serait présent dans le profil de quelqu'un pour voir qui est dans votre réseau. Pour effectuer une recherche par mot-clé, procédez comme suit:

Le choix des éditeurs

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Digg est un service Web dédié à facilement utilisables contenu alimenté. Digg se spécialise dans l'évaluation de la communauté des utilisateurs et le vote, ce qui permet aux utilisateurs de soumettre et de voter sur le contenu, les commentaires, les vidéos ou les images qui sont importants et ceux qui ne le sont pas. Digg est un excellent outil pour garder un œil sur ce qui est populaire et intéressant en ligne, en particulier ...

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Rien ne pimente un podcast petite intro ou musique de fond. Mais les podcasts - même s'ils sont produits et libérés sans frais pour l'auditeur - ne sont pas exemptés des restrictions de droits d'auteur. Vous devez rechercher de la musique ou des images appartenant au domaine public ou autorisées à être republiées. Soyons clairs: même si ...

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Demandant aux membres de quitter une communauté en ligne Cela va à contre-courant quand il s'agit de construire une communauté. Les gestionnaires de communauté veulent ajouter de nouveaux membres, ne pas se débarrasser d'eux. Pourtant, à certaines occasions, vous devez révoquer les adhésions parce que les membres refusent simplement de respecter les règles: Quand vous les avez prévenus ...

Le choix des éditeurs

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Un tableau croisé dynamique est un type spécial de tableau récapitulatif qui est unique à Excel. Les tableaux croisés dynamiques sont parfaits pour synthétiser des valeurs dans une table car ils font leur magie sans vous obliger à créer des formules pour effectuer les calculs. Les tableaux croisés dynamiques vous permettent également de jouer avec l'arrangement des données résumées. C'est cette capacité ...

Comment créer un diagramme de dispersion dans Excel - des nuls

Comment créer un diagramme de dispersion dans Excel - des nuls

L'une des formes de données les plus intéressantes et utiles analyse que vous pouvez effectuer dans Excel est l'analyse de régression. Dans l'analyse de régression, vous explorez la relation entre deux ensembles de valeurs, en recherchant l'association. Par exemple, vous pouvez utiliser l'analyse de régression pour déterminer si les dépenses publicitaires sont associées aux ventes, si le tabagisme est associé ...

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Pour ceux Lorsque vous devez sélectionner un sous-ensemble d'une table de données comme plage à représenter dans Excel 2013 (par opposition à la sélection d'une seule cellule dans une table de données), vous pouvez utiliser le nouvel outil Analyse rapide pour créer votre graphique. Procédez comme suit: