Comment préparer les données pour un modèle d'analyse prédictive - les nuls

Vidéo: Comprendre l’analyse prédictive en 2 minutes 2025

Lorsque vous avez défini les objectifs du modèle pour l'analyse prédictive, l'étape suivante consiste à identifier et préparer les données que vous utiliserez pour construire votre modèle. La séquence générale des étapes ressemble à ceci:

Identifiez vos sources de données.

Les données peuvent être dans différents formats ou résider dans divers endroits.
Identifiez comment vous allez accéder à ces données.

Parfois, vous devez acquérir des données tierces ou des données appartenant à une autre division de votre organisation, etc.
Pensez aux variables à inclure dans votre analyse.

Une approche standard consiste à commencer avec un large éventail de variables et à éliminer celles qui n'offrent aucune valeur prédictive pour le modèle.
Déterminez s'il faut utiliser des variables dérivées.

Dans de nombreux cas, une variable dérivée (telle que le ratio prix / revenu utilisé pour analyser les prix des actions) aurait un impact direct plus important sur le modèle que la variable brute.
Explorez la qualité de vos données, en cherchant à comprendre leur état et leurs limites.

L'exactitude des prédictions du modèle est directement liée aux variables que vous sélectionnez et à la qualité de vos données. Vous souhaitez répondre à certaines questions spécifiques aux données à ce stade:
- Les données sont-elles complètes?
- Y a-t-il des valeurs aberrantes?
- Les données doivent-elles être nettoyées?
- Avez-vous besoin de remplir les valeurs manquantes, de les conserver telles quelles ou de les éliminer complètement?

La compréhension de vos données et de leurs propriétés peut vous aider à choisir l'algorithme qui vous sera le plus utile dans la construction de votre modèle. Par exemple:

Les algorithmes de régression peuvent être utilisés pour analyser des données de séries temporelles.
Les algorithmes de classification peuvent être utilisés pour analyser des données discrètes.
Les algorithmes d'association peuvent être utilisés pour les données avec des attributs corrélés.

L'ensemble de données utilisé pour former et tester le modèle doit contenir des informations commerciales pertinentes pour répondre au problème que vous tentez de résoudre. Si votre objectif est (par exemple) de déterminer quel client est susceptible de se retourner, l'ensemble de données que vous choisissez doit contenir des informations sur les clients qui ont déjà effectué un barème et sur les clients qui ne l'ont pas fait.

Certains modèles créés pour extraire des données et donner un sens à leurs relations sous-jacentes - par exemple, ceux construits avec des algorithmes de clustering - n'ont pas besoin d'avoir un résultat final particulier à l'esprit.

Deux problèmes se posent lorsque vous traitez des données lorsque vous construisez votre modèle: le sous-équipement et le surapprentissage.

Underfitting

Underfitting signifie que votre modèle ne peut détecter aucune relation dans vos données.C'est généralement une indication que les variables essentielles - celles ayant un pouvoir prédictif - n'ont pas été incluses dans votre analyse. Par exemple, une analyse de stock qui inclut uniquement les données d'un marché haussier (où les cours boursiers globaux augmentent) ne tient pas compte des crises ou des bulles qui peuvent apporter des corrections majeures à la performance globale des actions.

Le fait de ne pas inclure les données qui couvrent à la fois les marchés baissiers et (lorsque les cours boursiers globaux sont en baisse) empêche le modèle de produire la meilleure sélection de portefeuille possible.

Surajustement

Surajustement correspond à l'inclusion de données sans puissance prédictive dans votre modèle, mais uniquement pour l'ensemble de données que vous analysez. Le bruit - variations aléatoires dans l'ensemble de données - peut trouver sa place dans le modèle, de sorte que l'exécution du modèle sur un ensemble de données différent entraîne une baisse importante des performances prédictives et de la précision du modèle. La barre latérale associée fournit un exemple.

Si votre modèle fonctionne correctement sur un jeu de données particulier et ne fonctionne que lorsque vous le testez sur un jeu de données différent, suspectez un surapprentissage.