Vidéo: Philip Evans: How data will transform business 2024
Comme de nombreux aspects de tout système d'entreprise, les données sont une création humaine - il est donc difficile d'en déterminer les limites l'obtenir. Voici un aperçu de certaines limitations que vous êtes susceptibles de rencontrer:
-
Les données peuvent être incomplètes. Des valeurs manquantes, voire l'absence d'une section ou d'une partie substantielle des données, pourraient limiter sa facilité d'utilisation.
Par exemple, vos données peuvent ne couvrir qu'une ou deux conditions d'un ensemble plus important que vous essayez de modéliser - comme lorsqu'un modèle conçu pour analyser les performances boursières ne dispose que des données des cinq dernières années, ce qui fausse les deux les données et le modèle vers l'hypothèse d'un marché haussier.
Au moment où le marché subit une correction qui mène à un marché baissier, le modèle ne s'adapte pas - simplement parce qu'il n'a pas été formé et testé avec des données représentant un marché baissier.
Assurez-vous de regarder une période qui vous donne une image complète des fluctuations naturelles de vos données; vos données ne doivent pas être limitées par saisonnalité .
-
Si vous utilisez des données issues d'enquêtes, gardez à l'esprit que les personnes ne fournissent pas toujours des informations précises. Tout le monde ne répondra pas honnêtement au sujet de (combien de fois ils font de l'exercice - ou du nombre de boissons alcoolisées qu'ils consomment - par semaine. Les gens peuvent ne pas être malhonnêtes autant que gênés, mais les données sont encore faussées.
-
Les données collectées à partir de différentes sources peuvent varier en qualité et en format. Les données recueillies auprès de sources aussi diverses que les sondages, les courriels, les formulaires de saisie de données et le site Web de l'entreprise auront des attributs et des structures différents. Les données provenant de diverses sources peuvent ne pas avoir beaucoup de compatibilité entre les champs de données. Ces données nécessitent un prétraitement majeur avant d'être prêtes pour l'analyse. La barre latérale associée fournit un exemple.
Les données collectées à partir de plusieurs sources peuvent présenter des différences de formatage, des enregistrements en double et des incohérences entre les champs de données fusionnés. Attendez-vous à passer beaucoup de temps à nettoyer de telles données - et encore plus à valider sa fiabilité.
Pour déterminer les limites de vos données, veillez à:
-
Vérifiez toutes les variables que vous utiliserez dans votre modèle.
-
Évaluer l'étendue des données, en particulier au fil du temps, afin que votre modèle puisse éviter le piège de la saisonnalité.
-
Vérifiez les valeurs manquantes, identifiez-les et évaluez leur impact sur l'analyse globale.
-
Faites attention aux valeurs extrêmes (valeurs aberrantes) et décidez si vous souhaitez les inclure dans l'analyse.
-
Confirmez que le pool de données d'entraînement et de test est suffisamment important.
-
Assurez-vous que type de données (entiers, valeurs décimales ou caractères, etc.) est correct et définissez les limites supérieure et inférieure des valeurs possibles.
-
Accordez une attention particulière à l'intégration des données lorsque vos données proviennent de plusieurs sources.
Assurez-vous de bien comprendre vos sources de données et leur impact sur la qualité globale de vos données.
-
Choisissez un ensemble de données pertinent représentatif de l'ensemble de la population.
-
Choisissez les bons paramètres pour votre analyse.
Même après tout ce soin, ne soyez pas surpris si vos données ont encore besoin d'un prétraitement avant de pouvoir les analyser avec précision. Le pré-traitement prend souvent beaucoup de temps et nécessite beaucoup d'efforts car il doit résoudre plusieurs problèmes liés aux données d'origine. Ces problèmes incluent:
-
Toutes les valeurs manquantes dans les données.
-
Toute incohérence et / ou erreur existant dans les données.
-
Tout doublon ou valeur aberrante dans les données.
-
Toute normalisation ou autre transformation des données.
-
Toute donnée dérivée nécessaire à l'analyse.