Accueil Finances personnelles 8 Meilleures pratiques en préparation de données - les nuls

8 Meilleures pratiques en préparation de données - les nuls

Table des matières:

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025
Anonim

Les progiciels statistiques sont extrêmement puissants ces temps-ci, mais ils ne peuvent pas surmonter des données de mauvaise qualité. Vous trouverez ci-dessous une liste de choses à faire avant de construire des modèles statistiques.

Vérifier les formats de données

Votre analyse commence toujours par un fichier de données brutes. Les fichiers de données brutes sont de différentes formes et tailles. Les données mainframe sont différentes des données PC, les données de tableur sont formatées différemment des données Web, etc. Et à l'ère du Big Data, vous serez sûrement confronté à des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous assurer que vous pouvez lire les fichiers qui vous sont donnés.

Vous devez réellement regarder ce que chaque champ contient. Par exemple, il n'est pas sage de croire que, simplement parce qu'un champ est listé comme un champ de caractères, il contient en réalité des données de caractères.

Vérifier les types de données

Toutes les données sont classées dans l'une des quatre catégories suivantes:

  • Les données nominales sont essentiellement un nom ou un identificateur.

  • Les données ordinales classent les enregistrements du plus petit au plus haut.

  • Les données d'intervalle représentent des valeurs où les différences entre elles sont comparables.

  • Les données de rapport sont semblables aux données d'intervalle, sauf qu'elles permettent également d'obtenir une valeur de 0.

Il est important de comprendre dans quelles catégories se trouvent vos données avant de les introduire dans le logiciel statistique. Sinon, vous risquez de vous retrouver avec un charabia parfaitement raisonnable.

Représentez vos données

Il est important d'avoir une idée de la manière dont vos données sont distribuées. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous soyez bleus dans le visage, mais aucune d'entre elles ne vous donnera autant de détails sur ce que vos données ressemblent à un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes sûr que les données sont formatées comme vous le souhaitez, vous devez toujours vous assurer qu'elles sont exactes et qu'elles ont du sens. Cette étape nécessite que vous ayez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment d'approche simplifiée pour vérifier l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données devraient présenter et de tester les données pour voir si ces propriétés sont valides. Les cours des actions sont-ils toujours positifs? Tous les codes de produits correspondent-ils à la liste des codes valides? Essentiellement, vous essayez de déterminer si les données sont vraiment ce qu'on vous a dit.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont en décalage avec le reste des données. Ce sont des valeurs très grandes ou très petites par rapport au reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques car elles peuvent sérieusement compromettre les statistiques et les procédures statistiques. Une seule valeur aberrante peut avoir un impact énorme sur la valeur de la moyenne. Parce que la moyenne est censée représenter le centre des données, dans un sens, cette valeur aberrante rend la moyenne inutile.

Face aux valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être les prendre en compte. Dans ces cas, il est généralement souhaitable de faire deux fois votre analyse - une fois avec les valeurs aberrantes incluses et une fois avec les valeurs aberrantes exclues. Cela vous permet d'évaluer quelle méthode donne des résultats plus utiles.

Traitement des valeurs manquantes

Les valeurs manquantes constituent l'un des problèmes de données les plus courants (et les plus ennuyeux) que vous rencontrerez. Votre première impulsion pourrait être de supprimer des enregistrements avec des valeurs manquantes de votre analyse. Le problème avec ceci est que les valeurs manquantes ne sont souvent pas seulement de petits problèmes de données aléatoires.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne se vérifie pas, l'exactitude de vos prédictions en souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordées dans ce livre est que les données sont normalement distribuées.

Ou pas. Dans les cas où les données ne sont pas distribuées comme vous le souhaitez, tout n'est pas nécessairement perdu. Il existe plusieurs façons de transformer les données pour obtenir la distribution dont vous avez besoin.

L'un des meilleurs moyens de vérifier l'exactitude d'un modèle statistique consiste à le tester par rapport aux données une fois qu'il a été construit. Une façon de le faire est de diviser aléatoirement votre ensemble de données en deux fichiers. Vous pouvez appeler ces fichiers Analysis et Test, respectivement.

Vous devez diviser les données au hasard pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triés en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront à différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier aléatoirement, vous donnez à chaque enregistrement une chance égale d'être dans l'un ou l'autre fichier. Au figuré, vous faites tourner une pièce pour chaque enregistrement pour décider dans quel fichier il va. L'aléatoire donne aux deux fichiers les mêmes propriétés statistiques que les données d'origine.

Une fois que vous avez divisé l'ensemble de données, mettez de côté le fichier de test. Ensuite, continuez à construire votre modèle prédictif en utilisant le fichier d'analyse. Une fois le modèle construit, appliquez-le au fichier de test et voyez comment il fonctionne.

Les modèles de test de cette manière aident à protéger contre un phénomène connu sous le nom de sur-ajustement . Essentiellement, il est possible pour les procédures statistiques de mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si le sur-ajustement se produit, le modèle va tester assez mal contre le fichier de test.

Sauvegardez et documentez tout ce que vous faites

Parce que les logiciels statistiques deviennent si simples à utiliser, c'est un jeu d'enfant de commencer à générer des rapports et des graphiques, sans parler des fichiers de données.Vous pouvez exécuter des procédures littéralement sur simple pression d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données en quelques minutes. Cela rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous faites. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui ont été utilisées pour les créer. Les procédures statistiques que vous construisez doivent être sauvegardées et documentées.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous allez probablement créer plusieurs versions de vos données reflétant diverses corrections et transformations de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentés d'une manière qui décrit quelles transformations vous avez faites et pourquoi.

La documentation n'est pas la tâche préférée de quiconque, mais nous parlons d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il s'agit de vos projets d'analyse.

En suivant les étapes décrites ci-dessus, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation prend en fait plus de temps que le bâtiment du modèle réel. Mais c'est nécessaire. Et vous finirez par vous remercier d'avoir travaillé méthodiquement.

8 Meilleures pratiques en préparation de données - les nuls

Le choix des éditeurs

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Pour approfondir votre conscience consciente, vous devez pratiquer une méditation de pleine conscience sur une base quotidienne. Familiarisez-vous avec certaines des médiations suivantes. Avec le temps, vous deviendrez plus conscient de votre vie quotidienne. Body Meditation Meditation - Cette méditation implique de passer environ une demi-heure, en prenant conscience de ...

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Les Templiers sont presque aussi fictifs dans Dan Brown Le code Da Vinci comme les chevaliers Jedi sont dans Star Wars. Bien que le héros Robert Langdon hésite d'abord à élever les Templiers dans ses cours, parce que la mention même d'eux fait ressortir les amants du complot, Brown n'a aucun problème à les faire participer ...

Démystification des mythes communs sur la franc-maçonnerie - mannequins

Démystification des mythes communs sur la franc-maçonnerie - mannequins

La franc-maçonnerie moderne existe depuis 1717. Les premières contre-vérités concoctées sur l'Ordre sont apparues en impression à peu près en même temps. Les États-Unis étaient consumés par l'hystérie anti-maçonnique à la fin des années 1820, et l'Europe a fait de Mason-bashing un sport populaire pendant deux siècles, le liant souvent à la propagande antisémite. Internet n'a que ...

Le choix des éditeurs

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

Dans la boîte de dialogue Configurer l'affichage dans PowerPoint, cliquez sur le bouton Configurer l'affichage dans l'onglet Diaporama du ruban Office 2011 pour Mac, ou choisissez Diaporama → Configurer l'affichage dans la barre de menus. Dans les deux cas, la boîte de dialogue Configurer l'affichage polyvalent apparaît. Choisir un type de spectacle dans PowerPoint 2011 pour Mac ...

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement d'un fichier sur lequel vous travaillez dans Office 2011 pour Mac est aussi simple que de cliquer sur le bouton Enregistrer dans la barre d'outils Standard, en appuyant sur Commande-S ou en choisissant Fichier → Enregistrer. Si votre fichier a été enregistré précédemment, l'enregistrement du fichier remplace la copie existante du fichier par votre version mise à jour. Si votre fichier n'a pas ...

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Dans Office 2011 pour Mac, l'ajout d'une nouvelle présentation de diapositive à une diapositive dans la vue Diapositive maître de PowerPoint 2011 est une tâche assez simple à effectuer. Suivez ces étapes pour commencer: Assurez-vous que vous êtes en mode Masque des diapositives. Choisissez Affichage → Maître → Masque de diapositives dans la barre de menus. Cliquez sur l'onglet Masque des diapositives du ruban, ...

Le choix des éditeurs

Sélectionnez PowerPoint 2007 Objects - dummies

Sélectionnez PowerPoint 2007 Objects - dummies

Avant de pouvoir modifier un objet PowerPoint 2007 sur une diapositive, vous devez le sélectionner. Dans les présentations PowerPoint, les objets peuvent être du texte, des graphiques, des images clipart, des formes, etc. Voici quelques instructions pour sélectionner les objets PowerPoint 2007: Objets texte: Pour sélectionner un objet texte PowerPoint 2007, déplacez le point d'insertion sur le texte qui ...

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Le contrôle shapePoint de powerPoint vous permet style des objets de ligne ou la bordure pour les objets de forme solide sur vos diapositives PowerPoint. Le contrôle Shape Outline se trouve dans le groupe Styles de formes de l'onglet Outils de dessin. Vous pouvez modifier les paramètres suivants pour le contour: Couleur: Définit la couleur utilisée pour ...

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 est le logiciel de présentation le plus puissant disponible pour créer et éditer la diapositive montrer des présentations pour le travail, la maison ou l'école. PowerPoint 2016 offre un certain nombre de raccourcis clavier utiles pour effectuer des tâches rapidement. Voici quelques raccourcis pour le formatage PowerPoint commun, l'édition et les tâches de fichiers et de documents. De plus, après avoir créé votre chef-d'œuvre, vous ...