Accueil Finances personnelles 8 Meilleures pratiques en préparation de données - les nuls

8 Meilleures pratiques en préparation de données - les nuls

Table des matières:

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025
Anonim

Les progiciels statistiques sont extrêmement puissants ces temps-ci, mais ils ne peuvent pas surmonter des données de mauvaise qualité. Vous trouverez ci-dessous une liste de choses à faire avant de construire des modèles statistiques.

Vérifier les formats de données

Votre analyse commence toujours par un fichier de données brutes. Les fichiers de données brutes sont de différentes formes et tailles. Les données mainframe sont différentes des données PC, les données de tableur sont formatées différemment des données Web, etc. Et à l'ère du Big Data, vous serez sûrement confronté à des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous assurer que vous pouvez lire les fichiers qui vous sont donnés.

Vous devez réellement regarder ce que chaque champ contient. Par exemple, il n'est pas sage de croire que, simplement parce qu'un champ est listé comme un champ de caractères, il contient en réalité des données de caractères.

Vérifier les types de données

Toutes les données sont classées dans l'une des quatre catégories suivantes:

  • Les données nominales sont essentiellement un nom ou un identificateur.

  • Les données ordinales classent les enregistrements du plus petit au plus haut.

  • Les données d'intervalle représentent des valeurs où les différences entre elles sont comparables.

  • Les données de rapport sont semblables aux données d'intervalle, sauf qu'elles permettent également d'obtenir une valeur de 0.

Il est important de comprendre dans quelles catégories se trouvent vos données avant de les introduire dans le logiciel statistique. Sinon, vous risquez de vous retrouver avec un charabia parfaitement raisonnable.

Représentez vos données

Il est important d'avoir une idée de la manière dont vos données sont distribuées. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous soyez bleus dans le visage, mais aucune d'entre elles ne vous donnera autant de détails sur ce que vos données ressemblent à un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes sûr que les données sont formatées comme vous le souhaitez, vous devez toujours vous assurer qu'elles sont exactes et qu'elles ont du sens. Cette étape nécessite que vous ayez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment d'approche simplifiée pour vérifier l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données devraient présenter et de tester les données pour voir si ces propriétés sont valides. Les cours des actions sont-ils toujours positifs? Tous les codes de produits correspondent-ils à la liste des codes valides? Essentiellement, vous essayez de déterminer si les données sont vraiment ce qu'on vous a dit.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont en décalage avec le reste des données. Ce sont des valeurs très grandes ou très petites par rapport au reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques car elles peuvent sérieusement compromettre les statistiques et les procédures statistiques. Une seule valeur aberrante peut avoir un impact énorme sur la valeur de la moyenne. Parce que la moyenne est censée représenter le centre des données, dans un sens, cette valeur aberrante rend la moyenne inutile.

Face aux valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être les prendre en compte. Dans ces cas, il est généralement souhaitable de faire deux fois votre analyse - une fois avec les valeurs aberrantes incluses et une fois avec les valeurs aberrantes exclues. Cela vous permet d'évaluer quelle méthode donne des résultats plus utiles.

Traitement des valeurs manquantes

Les valeurs manquantes constituent l'un des problèmes de données les plus courants (et les plus ennuyeux) que vous rencontrerez. Votre première impulsion pourrait être de supprimer des enregistrements avec des valeurs manquantes de votre analyse. Le problème avec ceci est que les valeurs manquantes ne sont souvent pas seulement de petits problèmes de données aléatoires.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne se vérifie pas, l'exactitude de vos prédictions en souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordées dans ce livre est que les données sont normalement distribuées.

Ou pas. Dans les cas où les données ne sont pas distribuées comme vous le souhaitez, tout n'est pas nécessairement perdu. Il existe plusieurs façons de transformer les données pour obtenir la distribution dont vous avez besoin.

L'un des meilleurs moyens de vérifier l'exactitude d'un modèle statistique consiste à le tester par rapport aux données une fois qu'il a été construit. Une façon de le faire est de diviser aléatoirement votre ensemble de données en deux fichiers. Vous pouvez appeler ces fichiers Analysis et Test, respectivement.

Vous devez diviser les données au hasard pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triés en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront à différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier aléatoirement, vous donnez à chaque enregistrement une chance égale d'être dans l'un ou l'autre fichier. Au figuré, vous faites tourner une pièce pour chaque enregistrement pour décider dans quel fichier il va. L'aléatoire donne aux deux fichiers les mêmes propriétés statistiques que les données d'origine.

Une fois que vous avez divisé l'ensemble de données, mettez de côté le fichier de test. Ensuite, continuez à construire votre modèle prédictif en utilisant le fichier d'analyse. Une fois le modèle construit, appliquez-le au fichier de test et voyez comment il fonctionne.

Les modèles de test de cette manière aident à protéger contre un phénomène connu sous le nom de sur-ajustement . Essentiellement, il est possible pour les procédures statistiques de mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si le sur-ajustement se produit, le modèle va tester assez mal contre le fichier de test.

Sauvegardez et documentez tout ce que vous faites

Parce que les logiciels statistiques deviennent si simples à utiliser, c'est un jeu d'enfant de commencer à générer des rapports et des graphiques, sans parler des fichiers de données.Vous pouvez exécuter des procédures littéralement sur simple pression d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données en quelques minutes. Cela rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous faites. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui ont été utilisées pour les créer. Les procédures statistiques que vous construisez doivent être sauvegardées et documentées.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous allez probablement créer plusieurs versions de vos données reflétant diverses corrections et transformations de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentés d'une manière qui décrit quelles transformations vous avez faites et pourquoi.

La documentation n'est pas la tâche préférée de quiconque, mais nous parlons d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il s'agit de vos projets d'analyse.

En suivant les étapes décrites ci-dessus, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation prend en fait plus de temps que le bâtiment du modèle réel. Mais c'est nécessaire. Et vous finirez par vous remercier d'avoir travaillé méthodiquement.

8 Meilleures pratiques en préparation de données - les nuls

Le choix des éditeurs

Principes de base du protocole de routage IP Multicast - dummies

Principes de base du protocole de routage IP Multicast - dummies

IP Le routage multicast est le routage du trafic multicast. La nature des données IP Multicast est telle qu'elle a ses propres problèmes de routage de réseau Cisco. Il existe quatre protocoles de multidiffusion principaux pris en charge par le Cisco IOS actuel. L'illustration vous montre approximativement où les protocoles sont utilisés; Ce qui suit est ...

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Nouveau concentrateur ou passer à un réseau mappé STP (Spanning Tree Protocol)? Pour cet exemple, un concentrateur était connecté à un port sur les deux commutateurs 11: 99 et 77: 22. Un concentrateur était utilisé car il ne disposait pas d'une intelligence réseau. L'effet net est en fait le même que ...

Types de réseau local (LAN) - nuls

Types de réseau local (LAN) - nuls

Un WAN est un type de réseau local (LAN) . Un réseau local est un réseau privé généralement constitué d'une connexion réseau fiable, rapide et bien connectée. Les alternatives sur le framework LAN incluent CAN, MAN et WAN. Ces trois options de réseau sont illustrées ci-dessous: CAN Si vous utilisez le réseau LAN ...

Le choix des éditeurs

Bebo est l'application de médias sociaux pour vous? - les nuls

Bebo est l'application de médias sociaux pour vous? - les nuls

Comment savez-vous quel est le bon média social pour vous? La culture moderne devient de plus en plus dépendante des médias sociaux tels que Bebo, Facebook, Twitter et What'sApp, ainsi que de nombreux autres. Le questionnaire suivant vous aidera à déterminer si vous avez ou non ce qu'il faut pour être social sur le nouveau ...

Comment utiliser Bebo - dummies

Comment utiliser Bebo - dummies

Bebo, la nouvelle application des médias sociaux, est aussi facile à utiliser que C'est amusant à regarder. Vous pouvez obtenir cette nouvelle application sur Google Play Store et Apple App Store. Lancez Bebo et suivez les instructions à l'écran pour terminer le processus de création de compte. Après avoir téléchargé avec succès, ...

Le choix des éditeurs

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

La plupart des blogs contiennent du matériel de barre latérale. La plupart des blogs sont disposés en deux ou trois colonnes, et le contenu de la barre latérale apparaît généralement dans les deuxième et / ou troisième colonnes. Certains blogs n'ont pas de barres latérales, et sur d'autres blogs, vous pouvez découvrir des éléments supplémentaires au-delà de ce que vous voyez ici. Archives basées sur la date: Presque tous les blogs sont ...

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Ne sont que quelques-unes modèles conflit en cours d'exécution des publicités avec vos meilleurs intérêts. C'est quand vous bloguez pour vendre vos propres produits ou pour promouvoir vos services professionnels. Même dans ce cas, il est toujours possible de diffuser des annonces sur ces blogs, surtout si les annonces font la promotion de produits et de services complémentaires et non concurrents. Mais si vous êtes ...

Quand maman blogue pour Swag is Okay - les mannequins

Quand maman blogue pour Swag is Okay - les mannequins

Dans certaines circonstances légitimes vous pouvez vous sentir travailler gratuitement vaut votre temps et la publicité que vous offrez à une marque. Cela peut être comparé à un stage non rémunéré. Si vous êtes stagiaire et que vous avez une excellente expérience de travail, alors c'est une entreprise précieuse. Si vous êtes stagiaire et que vous ne versez que du café et que vous livrez ...