Accueil Finances personnelles 8 Meilleures pratiques en préparation de données - les nuls

8 Meilleures pratiques en préparation de données - les nuls

Table des matières:

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025
Anonim

Les progiciels statistiques sont extrêmement puissants ces temps-ci, mais ils ne peuvent pas surmonter des données de mauvaise qualité. Vous trouverez ci-dessous une liste de choses à faire avant de construire des modèles statistiques.

Vérifier les formats de données

Votre analyse commence toujours par un fichier de données brutes. Les fichiers de données brutes sont de différentes formes et tailles. Les données mainframe sont différentes des données PC, les données de tableur sont formatées différemment des données Web, etc. Et à l'ère du Big Data, vous serez sûrement confronté à des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous assurer que vous pouvez lire les fichiers qui vous sont donnés.

Vous devez réellement regarder ce que chaque champ contient. Par exemple, il n'est pas sage de croire que, simplement parce qu'un champ est listé comme un champ de caractères, il contient en réalité des données de caractères.

Vérifier les types de données

Toutes les données sont classées dans l'une des quatre catégories suivantes:

  • Les données nominales sont essentiellement un nom ou un identificateur.

  • Les données ordinales classent les enregistrements du plus petit au plus haut.

  • Les données d'intervalle représentent des valeurs où les différences entre elles sont comparables.

  • Les données de rapport sont semblables aux données d'intervalle, sauf qu'elles permettent également d'obtenir une valeur de 0.

Il est important de comprendre dans quelles catégories se trouvent vos données avant de les introduire dans le logiciel statistique. Sinon, vous risquez de vous retrouver avec un charabia parfaitement raisonnable.

Représentez vos données

Il est important d'avoir une idée de la manière dont vos données sont distribuées. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous soyez bleus dans le visage, mais aucune d'entre elles ne vous donnera autant de détails sur ce que vos données ressemblent à un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes sûr que les données sont formatées comme vous le souhaitez, vous devez toujours vous assurer qu'elles sont exactes et qu'elles ont du sens. Cette étape nécessite que vous ayez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment d'approche simplifiée pour vérifier l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données devraient présenter et de tester les données pour voir si ces propriétés sont valides. Les cours des actions sont-ils toujours positifs? Tous les codes de produits correspondent-ils à la liste des codes valides? Essentiellement, vous essayez de déterminer si les données sont vraiment ce qu'on vous a dit.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont en décalage avec le reste des données. Ce sont des valeurs très grandes ou très petites par rapport au reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques car elles peuvent sérieusement compromettre les statistiques et les procédures statistiques. Une seule valeur aberrante peut avoir un impact énorme sur la valeur de la moyenne. Parce que la moyenne est censée représenter le centre des données, dans un sens, cette valeur aberrante rend la moyenne inutile.

Face aux valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être les prendre en compte. Dans ces cas, il est généralement souhaitable de faire deux fois votre analyse - une fois avec les valeurs aberrantes incluses et une fois avec les valeurs aberrantes exclues. Cela vous permet d'évaluer quelle méthode donne des résultats plus utiles.

Traitement des valeurs manquantes

Les valeurs manquantes constituent l'un des problèmes de données les plus courants (et les plus ennuyeux) que vous rencontrerez. Votre première impulsion pourrait être de supprimer des enregistrements avec des valeurs manquantes de votre analyse. Le problème avec ceci est que les valeurs manquantes ne sont souvent pas seulement de petits problèmes de données aléatoires.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne se vérifie pas, l'exactitude de vos prédictions en souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordées dans ce livre est que les données sont normalement distribuées.

Ou pas. Dans les cas où les données ne sont pas distribuées comme vous le souhaitez, tout n'est pas nécessairement perdu. Il existe plusieurs façons de transformer les données pour obtenir la distribution dont vous avez besoin.

L'un des meilleurs moyens de vérifier l'exactitude d'un modèle statistique consiste à le tester par rapport aux données une fois qu'il a été construit. Une façon de le faire est de diviser aléatoirement votre ensemble de données en deux fichiers. Vous pouvez appeler ces fichiers Analysis et Test, respectivement.

Vous devez diviser les données au hasard pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triés en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront à différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier aléatoirement, vous donnez à chaque enregistrement une chance égale d'être dans l'un ou l'autre fichier. Au figuré, vous faites tourner une pièce pour chaque enregistrement pour décider dans quel fichier il va. L'aléatoire donne aux deux fichiers les mêmes propriétés statistiques que les données d'origine.

Une fois que vous avez divisé l'ensemble de données, mettez de côté le fichier de test. Ensuite, continuez à construire votre modèle prédictif en utilisant le fichier d'analyse. Une fois le modèle construit, appliquez-le au fichier de test et voyez comment il fonctionne.

Les modèles de test de cette manière aident à protéger contre un phénomène connu sous le nom de sur-ajustement . Essentiellement, il est possible pour les procédures statistiques de mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si le sur-ajustement se produit, le modèle va tester assez mal contre le fichier de test.

Sauvegardez et documentez tout ce que vous faites

Parce que les logiciels statistiques deviennent si simples à utiliser, c'est un jeu d'enfant de commencer à générer des rapports et des graphiques, sans parler des fichiers de données.Vous pouvez exécuter des procédures littéralement sur simple pression d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données en quelques minutes. Cela rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous faites. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui ont été utilisées pour les créer. Les procédures statistiques que vous construisez doivent être sauvegardées et documentées.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous allez probablement créer plusieurs versions de vos données reflétant diverses corrections et transformations de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentés d'une manière qui décrit quelles transformations vous avez faites et pourquoi.

La documentation n'est pas la tâche préférée de quiconque, mais nous parlons d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il s'agit de vos projets d'analyse.

En suivant les étapes décrites ci-dessus, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation prend en fait plus de temps que le bâtiment du modèle réel. Mais c'est nécessaire. Et vous finirez par vous remercier d'avoir travaillé méthodiquement.

8 Meilleures pratiques en préparation de données - les nuls

Le choix des éditeurs

Conventions de dénomination pour Ruby on Rails - mannequins

Conventions de dénomination pour Ruby on Rails - mannequins

Vous utilisez Ruby on Rails pour créer un site Web application ou application de base de données Web, ce qui est très intelligent de votre part. En fonction de ce que vous utilisez (une application, une relation un-à-plusieurs ou une relation plusieurs-à-plusieurs), vous utilisez différentes variantes des protocoles d'attribution de noms Rails, qui sont expliquées dans les sections suivantes. Ruby Naming for ...

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En essayant de naviguer dans un espace en trois dimensions à travers un écran bidimensionnel comme un écran d'ordinateur, vous ne pouvez pas interagir avec cet espace 3D virtuel exactement comme vous le feriez dans le monde réel, ou espace de vie. La meilleure façon de visualiser le travail en 3D à travers un programme comme Blender est d'imaginer la vue 3D comme vos yeux ...

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Final Cut Pro HD Timeline vous permet d'organiser tous vos clips vidéo et audio afin qu'ils racontent l'histoire que vous voulez raconter. Pour comprendre le fonctionnement de la Timeline, imaginez-la comme une page de partitions, mais plutôt que de placer des notes de musique de différentes durées (noires, demi-notes, ...

Le choix des éditeurs

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Lorsque vous ajoutez des dimensions en sélectionnant des objets ou en utilisant l'accrochage aux objets Pour sélectionner des points sur les objets, AutoCAD crée normalement des dimensions associatives, qui sont connectées aux objets et se déplacent avec eux. C'est le cas dans les nouveaux dessins créés à l'origine dans toute version d'AutoCAD à partir de 2002. Si vous ...

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Si vous avez la chance de travailler dans un bureau Quelqu'un a mis en place des styles de cotes qui conviennent à votre secteur d'activité et à votre projet. Vous pouvez le copier et ainsi éviter de devoir créer vos propres styles de cote. (Un style de cote - ou dimstyle pour faire court - est une collection de paramètres de dessin appelée dimension ...

En choisissant un style d'édition AutoCAD -

En choisissant un style d'édition AutoCAD -

Dans AutoCAD vous passez généralement plus de temps à éditer que dessiner des objets. C'est en partie parce que le processus de conception et de rédaction est, par nature, sujet à des changements, et aussi parce que AutoCAD vous permet de modifier facilement les objets proprement. AutoCAD propose trois styles d'édition: Commande-première Sélection-première Objet-direct (poignée) AutoCAD fait référence à l'édition de commandes comme verbe-nom ...

Le choix des éditeurs

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Parce que les élèves doivent généralement donner des présentations orales en classe , vous rencontrerez probablement une question sur ce sujet dans l'examen Praxis Elementary Education. Plus formelles que les discussions de groupe, les présentations orales ont leurs propres règles pour le conférencier. Lorsque vous donnez une présentation en classe, il y a plusieurs ...

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

L'examen Praxis Elementary Education sur la littérature et le texte d'information, c'est-à-dire la fiction et la non-fiction. Vous devrez donc vous familiariser avec les différents genres d'écriture. La compréhension du texte est un processus qui se produit au fil du temps.

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Vous rencontrerez probablement une ou deux questions qui impliquent des questions phonologiques sensibilisation à l'examen Praxis Elementary Education. La conscience phonologique est une compétence large impliquant la reconnaissance de son. Les lecteurs débutants commencent par apprendre les sons individuels, ou phonèmes, dans des mots parlés. Par exemple, le mot chat a trois phonèmes: / c / / a / / t /. Un lecteur débutant apprend ...