Accueil Finances personnelles 8 Meilleures pratiques en préparation de données - les nuls

8 Meilleures pratiques en préparation de données - les nuls

Table des matières:

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025

Vidéo: Algérie: Peuple déterminé contre junte obstinée ! 2025
Anonim

Les progiciels statistiques sont extrêmement puissants ces temps-ci, mais ils ne peuvent pas surmonter des données de mauvaise qualité. Vous trouverez ci-dessous une liste de choses à faire avant de construire des modèles statistiques.

Vérifier les formats de données

Votre analyse commence toujours par un fichier de données brutes. Les fichiers de données brutes sont de différentes formes et tailles. Les données mainframe sont différentes des données PC, les données de tableur sont formatées différemment des données Web, etc. Et à l'ère du Big Data, vous serez sûrement confronté à des données provenant de diverses sources. Votre première étape dans l'analyse de vos données est de vous assurer que vous pouvez lire les fichiers qui vous sont donnés.

Vous devez réellement regarder ce que chaque champ contient. Par exemple, il n'est pas sage de croire que, simplement parce qu'un champ est listé comme un champ de caractères, il contient en réalité des données de caractères.

Vérifier les types de données

Toutes les données sont classées dans l'une des quatre catégories suivantes:

  • Les données nominales sont essentiellement un nom ou un identificateur.

  • Les données ordinales classent les enregistrements du plus petit au plus haut.

  • Les données d'intervalle représentent des valeurs où les différences entre elles sont comparables.

  • Les données de rapport sont semblables aux données d'intervalle, sauf qu'elles permettent également d'obtenir une valeur de 0.

Il est important de comprendre dans quelles catégories se trouvent vos données avant de les introduire dans le logiciel statistique. Sinon, vous risquez de vous retrouver avec un charabia parfaitement raisonnable.

Représentez vos données

Il est important d'avoir une idée de la manière dont vos données sont distribuées. Vous pouvez exécuter des procédures statistiques jusqu'à ce que vous soyez bleus dans le visage, mais aucune d'entre elles ne vous donnera autant de détails sur ce que vos données ressemblent à un simple graphique.

Vérifier l'exactitude des données

Une fois que vous êtes sûr que les données sont formatées comme vous le souhaitez, vous devez toujours vous assurer qu'elles sont exactes et qu'elles ont du sens. Cette étape nécessite que vous ayez une certaine connaissance du domaine dans lequel vous travaillez.

Il n'y a pas vraiment d'approche simplifiée pour vérifier l'exactitude des données. L'idée de base est de formuler certaines propriétés que vous pensez que les données devraient présenter et de tester les données pour voir si ces propriétés sont valides. Les cours des actions sont-ils toujours positifs? Tous les codes de produits correspondent-ils à la liste des codes valides? Essentiellement, vous essayez de déterminer si les données sont vraiment ce qu'on vous a dit.

Identifier les valeurs aberrantes

Les valeurs aberrantes sont des points de données qui sont en décalage avec le reste des données. Ce sont des valeurs très grandes ou très petites par rapport au reste de l'ensemble de données.

Les valeurs aberrantes sont problématiques car elles peuvent sérieusement compromettre les statistiques et les procédures statistiques. Une seule valeur aberrante peut avoir un impact énorme sur la valeur de la moyenne. Parce que la moyenne est censée représenter le centre des données, dans un sens, cette valeur aberrante rend la moyenne inutile.

Face aux valeurs aberrantes, la stratégie la plus courante consiste à les supprimer. Dans certains cas, cependant, vous voudrez peut-être les prendre en compte. Dans ces cas, il est généralement souhaitable de faire deux fois votre analyse - une fois avec les valeurs aberrantes incluses et une fois avec les valeurs aberrantes exclues. Cela vous permet d'évaluer quelle méthode donne des résultats plus utiles.

Traitement des valeurs manquantes

Les valeurs manquantes constituent l'un des problèmes de données les plus courants (et les plus ennuyeux) que vous rencontrerez. Votre première impulsion pourrait être de supprimer des enregistrements avec des valeurs manquantes de votre analyse. Le problème avec ceci est que les valeurs manquantes ne sont souvent pas seulement de petits problèmes de données aléatoires.

Vérifiez vos hypothèses sur la façon dont les données sont distribuées

De nombreuses procédures statistiques dépendent de l'hypothèse selon laquelle les données sont distribuées d'une certaine manière. Si cette hypothèse ne se vérifie pas, l'exactitude de vos prédictions en souffre.

L'hypothèse la plus courante pour les techniques de modélisation abordées dans ce livre est que les données sont normalement distribuées.

Ou pas. Dans les cas où les données ne sont pas distribuées comme vous le souhaitez, tout n'est pas nécessairement perdu. Il existe plusieurs façons de transformer les données pour obtenir la distribution dont vous avez besoin.

L'un des meilleurs moyens de vérifier l'exactitude d'un modèle statistique consiste à le tester par rapport aux données une fois qu'il a été construit. Une façon de le faire est de diviser aléatoirement votre ensemble de données en deux fichiers. Vous pouvez appeler ces fichiers Analysis et Test, respectivement.

Vous devez diviser les données au hasard pour être efficace. Vous ne pouvez pas simplement diviser l'ensemble de données dans la moitié supérieure et la moitié inférieure, par exemple. Presque tous les fichiers de données sont triés en quelque sorte - par date si rien d'autre. Cela introduit des modèles systématiques qui donneront à différentes parties du fichier différentes propriétés statistiques. Lorsque vous divisez le fichier aléatoirement, vous donnez à chaque enregistrement une chance égale d'être dans l'un ou l'autre fichier. Au figuré, vous faites tourner une pièce pour chaque enregistrement pour décider dans quel fichier il va. L'aléatoire donne aux deux fichiers les mêmes propriétés statistiques que les données d'origine.

Une fois que vous avez divisé l'ensemble de données, mettez de côté le fichier de test. Ensuite, continuez à construire votre modèle prédictif en utilisant le fichier d'analyse. Une fois le modèle construit, appliquez-le au fichier de test et voyez comment il fonctionne.

Les modèles de test de cette manière aident à protéger contre un phénomène connu sous le nom de sur-ajustement . Essentiellement, il est possible pour les procédures statistiques de mémoriser le fichier de données plutôt que de découvrir des relations significatives entre les variables. Si le sur-ajustement se produit, le modèle va tester assez mal contre le fichier de test.

Sauvegardez et documentez tout ce que vous faites

Parce que les logiciels statistiques deviennent si simples à utiliser, c'est un jeu d'enfant de commencer à générer des rapports et des graphiques, sans parler des fichiers de données.Vous pouvez exécuter des procédures littéralement sur simple pression d'un bouton. Vous pouvez générer plusieurs dizaines de graphiques basés sur différentes transformations de données en quelques minutes. Cela rend assez facile de perdre la trace de ce que vous avez fait, et pourquoi.

Il est important de vous assurer que vous gardez une trace écrite de ce que vous faites. Les graphiques doivent être étiquetés avec le nom (et la version) des données qui ont été utilisées pour les créer. Les procédures statistiques que vous construisez doivent être sauvegardées et documentées.

Il est également important de sauvegarder vos fichiers de données. Au cours de votre analyse, vous allez probablement créer plusieurs versions de vos données reflétant diverses corrections et transformations de variables. Vous devez enregistrer les procédures qui ont créé ces versions. Ils devraient également être documentés d'une manière qui décrit quelles transformations vous avez faites et pourquoi.

La documentation n'est pas la tâche préférée de quiconque, mais nous parlons d'expérience quand nous vous encourageons fortement à ne pas compter sur votre mémoire quand il s'agit de vos projets d'analyse.

En suivant les étapes décrites ci-dessus, vous optimisez la fiabilité de vos modèles statistiques. Dans de nombreux cas, le travail de préparation prend en fait plus de temps que le bâtiment du modèle réel. Mais c'est nécessaire. Et vous finirez par vous remercier d'avoir travaillé méthodiquement.

8 Meilleures pratiques en préparation de données - les nuls

Le choix des éditeurs

Comment gérer votre temps pour le test GED Science - les mannequins

Comment gérer votre temps pour le test GED Science - les mannequins

Le test GED Science a environ 50 questions (le nombre exact varie d'un test à l'autre) auxquelles vous devez répondre en 90 minutes, ce qui signifie que vous avez environ 90 secondes pour lire chaque passage textuel ou visuel et les questions correspondantes et déterminer la bonne réponse. Si un passage a plus d'une question, vous ...

Comment décrire un ensemble de données statistiquement pour le test GED Science - mannequins

Comment décrire un ensemble de données statistiquement pour le test GED Science - mannequins

Le Le test GED Science posera des questions liées aux statistiques descriptives. Vous pouvez souvent résumer une collection de données (à partir d'une expérience, d'observations ou d'enquêtes, par exemple) en utilisant des statistiques descriptives, des chiffres utilisés pour résumer et analyser les données et en tirer des conclusions. Les statistiques descriptives pour une collection de données sont les suivantes: Fréquence: ...

Comment prédire un résultat sur la base des données ou des preuves du test scientifique GED

Comment prédire un résultat sur la base des données ou des preuves du test scientifique GED

Utiliser des preuves pour prédire les résultats est une compétence nécessaire pour le test GED Science. Les plus grands avantages des études scientifiques peuvent souvent être attribués au fait que leurs conclusions permettent aux gens de prédire les résultats. (Vous souhaiterez probablement que la science puisse vous aider à prédire vos résultats au test!) Vous êtes témoin de la science en action tous les jours ...

Le choix des éditeurs

Mettez les contrats en place pour vous protéger et protéger votre maman Écrivains de blog - parités

Mettez les contrats en place pour vous protéger et protéger votre maman Écrivains de blog - parités

Le temps et l'argent pour créer des accords légaux avec tous vos auteurs. Traitez votre entreprise comme une véritable entreprise. Trouver un bon avocat qui se spécialise dans le droit d'auteur et le droit des contrats pour vous aider à naviguer dans ces eaux légales. La loi sur le droit d'auteur est étrange et délicate, et défie souvent le bon sens. Voici les plus importants ...

Sélectionnez une plate-forme de blog - hébergée ou hébergée - des nuls

Sélectionnez une plate-forme de blog - hébergée ou hébergée - des nuls

Si vous démarrez un blog à partir de zéro, vous devez choisir une plate-forme de blog avant de pouvoir commencer à travailler sur la conception de votre blog. Le choix d'une plateforme de blog n'est pas une décision facile, car les plateformes de blogs ont plusieurs goûts différents. Une liste des plates-formes les plus couramment utilisées est incluse dans le tableau pour vous ...

Communiquer avec d'autres blogueurs pour promouvoir votre blogue - Les mannequins

Communiquer avec d'autres blogueurs pour promouvoir votre blogue - Les mannequins

N'oublient pas que les autres blogueurs peut être votre public principal. Ces gens sont en ligne et connaissent déjà les blogs, et vous êtes susceptible de trouver d'autres blogueurs avec qui vous avez beaucoup en commun. Rencontrer des blogueurs en personne et communiquer avec eux en ligne sont des moyens formidables de réseauter et de commercialiser votre blog. Les blogueurs sont bien ...

Le choix des éditeurs

En déployant suffisamment d'efforts pour bâtir l'estime de soi - des nuls

En déployant suffisamment d'efforts pour bâtir l'estime de soi - des nuls

Construisent une estime de soi saine. Les buts qui valent la peine d'être atteints exigent beaucoup de dévouement et de travail acharné, et abandonner est trop facile quand les choses se compliquent. Continuez à faire des efforts en vous rappelant de tenir ces types d'attitudes motivationnelles: je peux supporter la douleur et l'inconfort qui accompagnent le travail acharné. Il peut ...

Expliquant ce qui se passe lors d'une séance d'hypnothérapie - mannequins

Expliquant ce qui se passe lors d'une séance d'hypnothérapie - mannequins

Brièvement, voici les étapes d'une séance d'hypnothérapie typique . Cependant, gardez à l'esprit qu'une session «typique» varie beaucoup selon l'hypnothérapeute et le patient. Vous vous familiarisez avec votre hypnothérapeute. Votre hypnothérapeute rassemble des informations sur vous (principalement complétées lors de la session initiale). La transe est induite. La transe est approfondie. La réalité ...

Examinant les avantages et les inconvénients de la colère - les nuls

Examinant les avantages et les inconvénients de la colère - les nuls

La colère, comme toute autre chose, n'est pas bonne ou tout mauvais: il a beaucoup de pour et de contre. Les sections suivantes expliquent celles pour vous, afin que vous obteniez une image claire de la colère et de l'effet qu'elle peut avoir sur votre vie. Regarder les points positifs de la colère La colère peut être une émotion très pénible ...