Accueil Finances personnelles Comment préparer les données pour un modèle d'analyse prédictive - les nuls

Comment préparer les données pour un modèle d'analyse prédictive - les nuls

Table des matières:

Vidéo: Comprendre l’analyse prédictive en 2 minutes 2025

Vidéo: Comprendre l’analyse prédictive en 2 minutes 2025
Anonim

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, l'étape suivante consiste à identifier et préparer les données que vous utiliserez pour construire votre modèle. La séquence générale des étapes ressemble à ceci:

  1. Identifiez vos sources de données.

    Les données peuvent être dans différents formats ou résider dans divers endroits.

  2. Identifiez comment vous allez accéder à ces données.

    Parfois, vous devez acquérir des données tierces ou des données appartenant à une autre division de votre organisation, etc.

  3. Pensez aux variables à inclure dans votre analyse.

    Une approche standard consiste à commencer avec un large éventail de variables et à éliminer celles qui n'offrent aucune valeur prédictive pour le modèle.

  4. Déterminez s'il faut utiliser des variables dérivées.

    Dans de nombreux cas, une variable dérivée (telle que le ratio prix / revenu utilisé pour analyser les prix des actions) aurait un impact direct plus important sur le modèle que la variable brute.

  5. Explorez la qualité de vos données, en cherchant à comprendre leur état et leurs limites.

    L'exactitude des prédictions du modèle est directement liée aux variables que vous sélectionnez et à la qualité de vos données. Vous souhaitez répondre à certaines questions spécifiques aux données à ce stade:

    • Les données sont-elles complètes?

    • Y a-t-il des valeurs aberrantes?

    • Les données doivent-elles être nettoyées?

    • Avez-vous besoin de remplir les valeurs manquantes, de les conserver telles quelles ou de les éliminer complètement?

La compréhension de vos données et de leurs propriétés peut vous aider à choisir l'algorithme qui vous sera le plus utile dans la construction de votre modèle. Par exemple:

  • Les algorithmes de régression peuvent être utilisés pour analyser des données de séries temporelles.

  • Les algorithmes de classification peuvent être utilisés pour analyser des données discrètes.

  • Les algorithmes d'association peuvent être utilisés pour les données avec des attributs corrélés.

L'ensemble de données utilisé pour former et tester le modèle doit contenir des informations commerciales pertinentes pour répondre au problème que vous tentez de résoudre. Si votre objectif est (par exemple) de déterminer quel client est susceptible de se retourner, l'ensemble de données que vous choisissez doit contenir des informations sur les clients qui ont déjà effectué un barème et sur les clients qui ne l'ont pas fait.

Certains modèles créés pour extraire des données et donner un sens à leurs relations sous-jacentes - par exemple, ceux construits avec des algorithmes de clustering - n'ont pas besoin d'avoir un résultat final particulier à l'esprit.

Deux problèmes se posent lorsque vous traitez des données lorsque vous construisez votre modèle: le sous-équipement et le surapprentissage.

Underfitting

Underfitting signifie que votre modèle ne peut détecter aucune relation dans vos données.C'est généralement une indication que les variables essentielles - celles ayant un pouvoir prédictif - n'ont pas été incluses dans votre analyse. Par exemple, une analyse de stock qui inclut uniquement les données d'un marché haussier (où les cours boursiers globaux augmentent) ne tient pas compte des crises ou des bulles qui peuvent apporter des corrections majeures à la performance globale des actions.

Le fait de ne pas inclure les données qui couvrent à la fois les marchés baissiers et (lorsque les cours boursiers globaux sont en baisse) empêche le modèle de produire la meilleure sélection de portefeuille possible.

Surajustement

Surajustement correspond à l'inclusion de données sans puissance prédictive dans votre modèle, mais uniquement pour l'ensemble de données que vous analysez. Le bruit - variations aléatoires dans l'ensemble de données - peut trouver sa place dans le modèle, de sorte que l'exécution du modèle sur un ensemble de données différent entraîne une baisse importante des performances prédictives et de la précision du modèle. La barre latérale associée fournit un exemple.

Si votre modèle fonctionne correctement sur un jeu de données particulier et ne fonctionne que lorsque vous le testez sur un jeu de données différent, suspectez un surapprentissage.

Comment préparer les données pour un modèle d'analyse prédictive - les nuls

Le choix des éditeurs

Passez les examens en améliorant votre mentalité de performance - les nuls

Passez les examens en améliorant votre mentalité de performance - les nuls

Quels que soient les sujets que vous étudiez, êtes à l'école secondaire, au collège, à l'université, ou face à des examens professionnels ou d'entrée, pour passer vos examens, vous devez développer votre esprit de performance d'examen. Faire cela vous aidera à: Développer une attitude d'excellence - toujours viser à atteindre votre meilleur rendement personnel. Décidez exactement de ce que ...

Réussir les examens commence le premier jour de classe - les tirs

Réussir les examens commence le premier jour de classe - les tirs

Sont faciles à supposer aller à des cours, des conférences, des tutoriels ou autres, votre préparation aux examens sera dans quelques mois. Cette hypothèse, cependant, n'est pas utile. Si vous pensez que la préparation aux examens fait partie de chaque cours tous les jours - pas seulement les dernières semaines avant les examens - vous ...

Pour mémoriser l'ordre des opérations du PSAT / NMSQT - mannequins

Pour mémoriser l'ordre des opérations du PSAT / NMSQT - mannequins

L'ordre mathématique des opérations est très important sur les sections mathématiques du PSAT / NMSQT. S'il vous plaît excusez ma chère tante Sally (PEMDAS) est un moyen mnémotechnique (aide-mémoire) qui vous aide à vous rappeler quelle opération vient en premier, qui vient en second lieu, et ainsi de suite. L'ordre compte parce que si vous ignorez tante Sally, vous vous retrouvez avec la mauvaise réponse. ...

Le choix des éditeurs

10 Bonnes façons d'utiliser Bitcoin - les nuls

10 Bonnes façons d'utiliser Bitcoin - les nuls

Si vous voulez utiliser le bitcoin comme une forme d'éducation monétaire virtuelle, Utilisez-le comme un revenu supplémentaire, ou regardez-le dans une perspective d'investissement, bitcoin vous permet de faire à peu près tout ce que vous pouvez imaginer. Voici dix des meilleures façons d'utiliser Bitcoin, même s'il y en a beaucoup, beaucoup ...

Bitcoin Clés publiques et privées - nuls

Bitcoin Clés publiques et privées - nuls

Il y a plus qu'un portefeuille bitcoin que juste l'adresse elle-même. Il contient également la clé publique et privée pour chacune de vos adresses bitcoin. Votre clé privée bitcoin est une chaîne générée aléatoirement (chiffres et lettres), permettant de dépenser des bitcoins. Une clé privée est toujours liée mathématiquement à l'adresse du porte-monnaie bitcoin, ...

Bitcoin Paper Wallets - mannequins

Bitcoin Paper Wallets - mannequins

Possédant un portefeuille papier bitcoin, l'adresse contenant les bitcoins n'a pas encore été connectée au live blockchain, et n'est donc pas "active". "Jusqu'à ce que le portefeuille soit connecté à la blockchain, il est considéré comme étant en stockage à froid (jargon bitcoin pour un compte hors ligne). Vous pouvez toujours vérifier le solde ...

Le choix des éditeurs

Comment lire les données d'Excel en R - dummies

Comment lire les données d'Excel en R - dummies

Si vous demandez aux utilisateurs de R quelle est la meilleure façon est d'importer des données directement à partir de Microsoft Excel, la plupart d'entre eux répondront probablement que votre meilleure option est d'exporter d'abord Excel vers un fichier CSV, puis utiliser lire. csv () pour importer vos données à R. En fait, c'est toujours le conseil ...

Comment lire les erreurs et les avertissements dans R - dummies

Comment lire les erreurs et les avertissements dans R - dummies

Si quelque chose ne va pas avec votre code, toi. Nous devons l'admettre: Ces messages d'erreur peuvent aller de légèrement confus à complètement incompréhensible si vous n'y êtes pas habitué. Mais ça ne doit pas rester comme ça. Lorsque vous vous serez familiarisé avec les messages d'erreur et d'avertissement de R, vous pourrez rapidement ...

Comment lire la sortie de str () pour les listes dans R - dummies

Comment lire la sortie de str () pour les listes dans R - dummies

Beaucoup de gens qui commencent par R sont déroutés par les listes au début. Il n'y a vraiment pas besoin de cela - une liste n'a que deux parties importantes: les composants et les noms. Et dans le cas des listes sans nom, vous n'avez même pas à vous soucier de ce dernier. Mais si vous regardez la structure ...