Accueil Finances personnelles 8 Meilleures pratiques en préparation de données - les nuls

8 Meilleures pratiques en préparation de données - les nuls

Table des matières:

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025
Anonim

Les progiciels statistiques sont extrêmement puissants ces temps-ci, mais ils ne peuvent pas surmonter des données de mauvaise qualité. Vous trouverez ci-dessous une liste de choses à faire avant de construire des modèles statistiques.

Vérifier les formats de données

Votre analyse commence toujours par un fichier de données brutes. Les fichiers de données brutes sont de différentes formes et tailles. Les données mainframe sont différentes des données PC, les données de tableur sont formatées différemment des données Web, etc. Et à l'ère du Big Data, vous serez sûrement confronté à des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous assurer que vous pouvez lire les fichiers qui vous sont donnés.

Vous devez réellement regarder ce que chaque champ contient. Par exemple, il n'est pas sage de croire que, simplement parce qu'un champ est listé comme un champ de caractères, il contient en réalité des données de caractères.

Vérifier les types de données

Toutes les données sont classées dans l'une des quatre catégories suivantes:

  • Les données nominales sont essentiellement un nom ou un identificateur.

  • Les données ordinales classent les enregistrements du plus petit au plus haut.

  • Les données d'intervalle représentent des valeurs où les différences entre elles sont comparables.

  • Les données de rapport sont semblables aux données d'intervalle, sauf qu'elles permettent également d'obtenir une valeur de 0.

Il est important de comprendre dans quelles catégories se trouvent vos données avant de les introduire dans le logiciel statistique. Sinon, vous risquez de vous retrouver avec un charabia parfaitement raisonnable.

Représentez vos données

Il est important d'avoir une idée de la manière dont vos données sont distribuées. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous soyez bleus dans le visage, mais aucune d'entre elles ne vous donnera autant de détails sur ce que vos données ressemblent à un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes sûr que les données sont formatées comme vous le souhaitez, vous devez toujours vous assurer qu'elles sont exactes et qu'elles ont du sens. Cette étape nécessite que vous ayez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment d'approche simplifiée pour vérifier l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données devraient présenter et de tester les données pour voir si ces propriétés sont valides. Les cours des actions sont-ils toujours positifs? Tous les codes de produits correspondent-ils à la liste des codes valides? Essentiellement, vous essayez de déterminer si les données sont vraiment ce qu'on vous a dit.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont en décalage avec le reste des données. Ce sont des valeurs très grandes ou très petites par rapport au reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques car elles peuvent sérieusement compromettre les statistiques et les procédures statistiques. Une seule valeur aberrante peut avoir un impact énorme sur la valeur de la moyenne. Parce que la moyenne est censée représenter le centre des données, dans un sens, cette valeur aberrante rend la moyenne inutile.

Face aux valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être les prendre en compte. Dans ces cas, il est généralement souhaitable de faire deux fois votre analyse - une fois avec les valeurs aberrantes incluses et une fois avec les valeurs aberrantes exclues. Cela vous permet d'évaluer quelle méthode donne des résultats plus utiles.

Traitement des valeurs manquantes

Les valeurs manquantes constituent l'un des problèmes de données les plus courants (et les plus ennuyeux) que vous rencontrerez. Votre première impulsion pourrait être de supprimer des enregistrements avec des valeurs manquantes de votre analyse. Le problème avec ceci est que les valeurs manquantes ne sont souvent pas seulement de petits problèmes de données aléatoires.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne se vérifie pas, l'exactitude de vos prédictions en souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordées dans ce livre est que les données sont normalement distribuées.

Ou pas. Dans les cas où les données ne sont pas distribuées comme vous le souhaitez, tout n'est pas nécessairement perdu. Il existe plusieurs façons de transformer les données pour obtenir la distribution dont vous avez besoin.

L'un des meilleurs moyens de vérifier l'exactitude d'un modèle statistique consiste à le tester par rapport aux données une fois qu'il a été construit. Une façon de le faire est de diviser aléatoirement votre ensemble de données en deux fichiers. Vous pouvez appeler ces fichiers Analysis et Test, respectivement.

Vous devez diviser les données au hasard pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triés en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront à différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier aléatoirement, vous donnez à chaque enregistrement une chance égale d'être dans l'un ou l'autre fichier. Au figuré, vous faites tourner une pièce pour chaque enregistrement pour décider dans quel fichier il va. L'aléatoire donne aux deux fichiers les mêmes propriétés statistiques que les données d'origine.

Une fois que vous avez divisé l'ensemble de données, mettez de côté le fichier de test. Ensuite, continuez à construire votre modèle prédictif en utilisant le fichier d'analyse. Une fois le modèle construit, appliquez-le au fichier de test et voyez comment il fonctionne.

Les modèles de test de cette manière aident à protéger contre un phénomène connu sous le nom de sur-ajustement . Essentiellement, il est possible pour les procédures statistiques de mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si le sur-ajustement se produit, le modèle va tester assez mal contre le fichier de test.

Sauvegardez et documentez tout ce que vous faites

Parce que les logiciels statistiques deviennent si simples à utiliser, c'est un jeu d'enfant de commencer à générer des rapports et des graphiques, sans parler des fichiers de données.Vous pouvez exécuter des procédures littéralement sur simple pression d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données en quelques minutes. Cela rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous faites. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui ont été utilisées pour les créer. Les procédures statistiques que vous construisez doivent être sauvegardées et documentées.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous allez probablement créer plusieurs versions de vos données reflétant diverses corrections et transformations de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentés d'une manière qui décrit quelles transformations vous avez faites et pourquoi.

La documentation n'est pas la tâche préférée de quiconque, mais nous parlons d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il s'agit de vos projets d'analyse.

En suivant les étapes décrites ci-dessus, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation prend en fait plus de temps que le bâtiment du modèle réel. Mais c'est nécessaire. Et vous finirez par vous remercier d'avoir travaillé méthodiquement.

8 Meilleures pratiques en préparation de données - les nuls

Le choix des éditeurs

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Pour les seniors: Comment travailler avec Windows dans Microsoft Windows - les nuls

Windows, avec un W majuscule, tire son nom de sa caractéristique principale: Windows, avec un w minuscule. Se familiariser avec Windows signifie apprendre à ouvrir, fermer, redimensionner, déplacer et basculer entre les fenêtres, ce qui est la clé pour jongler avec succès avec plusieurs activités. Chaque programme que vous exécutez occupe sa propre fenêtre. Une fenêtre peut occuper une partie de ...

Comment accepter ou rejeter les cookies dans Safari - dummies

Comment accepter ou rejeter les cookies dans Safari - dummies

Un cookie est un petit fichier qu'un site Web enregistre automatiquement sur le disque dur de votre Mac. Il contient des informations, telles que vos préférences ou votre date de naissance, que le site utilisera lors de vos prochaines visites. Dans Mac OS X Snow Leopard, Safari vous permet de choisir d'accepter ou non tous les cookies ...

Le choix des éditeurs

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Construire des boîtes et des lignes Bézier dans QuarkXPress - des nuls

Pour créer une boîte ou une ligne dans QuarkXPress plus complexe qu'un simple rectangle, ovale ou starburst, vous entrez dans le domaine du chemin de Bézier. Si vous avez utilisé l'outil Plume dans Adobe Illustrator ou Photoshop, vous comprenez déjà les chemins de Bézier. Il faut un peu de pratique et un esprit détendu ...

Création d'un rapport avec Crystal Reports 10 - témoins

Création d'un rapport avec Crystal Reports 10 - témoins

Lorsque vous démarrez Crystal Reports 10, généralement l'une des trois choses suivantes: créer un rapport, modifier un rapport ou exécuter un rapport sur les données de votre base de données. Les rapports prennent des données à partir d'une base de données, les traitent, les formatent et les affichent ensuite sur une imprimante, un écran d'ordinateur ou un site Web. Crystal Reports ...

Traitant des commentaires Javadoc dans Eclipse - mannequins

Traitant des commentaires Javadoc dans Eclipse - mannequins

Lorsque vous utilisez Eclipse pour écrire du code Java, n'oubliez pas de éditez les commentaires de Javadoc (les choses qui commencent par / **). Vous pouvez ajouter des informations utiles lorsque vous modifiez les commentaires Javadoc et lorsque vous les modifiez, l'aide au code d'Eclipse propose des suggestions. N'oubliez pas ces astuces lorsque vous modifiez vos commentaires Javadoc: Ajouter un commentaire Javadoc: ...

Le choix des éditeurs

Les connexions cachées sur le Nikon D5600 - les nuls

Les connexions cachées sur le Nikon D5600 - les nuls

Ouvrent les couvercles sur les côtés gauche et droit du Nikon D5600 caméra, et vous verrez plusieurs ports de connexions cachées. Les ports de connexion suivants sont indiqués sur cette image: Terminal d'accessoires: ce terminal accepte les accessoires suivants: câble déclencheur à distance Nikon MC-DC2; Télécommandes sans fil WR-1 et WR-R10; et les unités GPS GP-1 / GP-1A. I ...

Les connexions cachées sur votre Nikon D5200 - les nuls

Les connexions cachées sur votre Nikon D5200 - les nuls

ÉParpillés sur l'extérieur de votre appareil photo sont nombreuses commandes que vous utilisez pour changer d'image -prend des paramètres, revoir et modifier vos photos, et effectuer diverses autres opérations. Caché sous le couvercle sur le côté gauche de la caméra, vous trouverez les quatre ports de connexion suivants, étiquetés dans cette figure: Borne accessoire: Vous pouvez brancher le Nikon en option ...

Des boutons et autres commandes du Nikon D7500 - mannequins

Des boutons et autres commandes du Nikon D7500 - mannequins

C'est génial d'avoir une carte pour le boutons et commandes sur votre appareil photo, mais ce n'est pas beaucoup d'aide si vous ne pouvez pas vous rappeler quel bouton appuyer sur quand (et pourquoi). Alors, voici un aperçu des fonctions des contrôles les plus importants. (Certains contrôles ont des fonctions supplémentaires pendant certaines opérations, mais la table ...