Accueil Finances personnelles Utilisation de l'ajustement de courbe dans Predictive Analytics - L'ajustement de courbe

Utilisation de l'ajustement de courbe dans Predictive Analytics - L'ajustement de courbe

Table des matières:

Vidéo: Nuage de points et régression linéaire 2024

Vidéo: Nuage de points et régression linéaire 2024
Anonim

L'ajustement de courbe est un processus utilisé dans l'analyse prédictive dont l'objectif est de créer une courbe qui représente la fonction mathématique qui correspond le mieux aux points de données réels (originaux) dans une série de données.

La courbe peut traverser chaque point de données ou rester dans la masse des données, en ignorant certains points de données dans l'espoir de tirer des tendances à partir des données. Dans les deux cas, une seule fonction mathématique est assignée à l'ensemble des données, dans le but d'ajuster tous les points de données en une courbe qui délimite les tendances et facilite la prédiction.

L'ajustement de la courbe peut être réalisé de l'une des trois manières suivantes:

  • En trouvant un ajustement exact pour chaque point de données (un processus appelé interpolation )

  • En restant dans la plus grande partie des données tout en ignorant certains points de données dans l'espoir d'extraire les tendances des données

  • En utilisant le lissage des données pour obtenir une fonction qui représente le graphique lissé

L'ajustement de courbe peut être utilisé pour remplir les points de données possibles afin de remplacer les valeurs manquantes ou aider les analystes à visualiser les données.

Lorsque vous créez un modèle d'analyse prédictive, évitez d'adapter votre modèle à votre échantillon de données. Un tel modèle échouera - misérablement - à prédire des ensembles de données similaires mais variables en dehors de l'échantillon de données. Ajuster un modèle de trop près à un échantillon de données particulier est une erreur classique appelée overfitting .

Les malheurs de l'overfitting

En fait, le surajustement d'un modèle est ce qui se passe quand on surmène le modèle pour représenter uniquement les données de votre échantillon - ce qui n'est pas une bonne représentation des données dans son ensemble. Sans un ensemble de données plus réaliste, le modèle peut alors être confronté à des erreurs et à des risques lorsqu'il sera opérationnel - et les conséquences pour votre entreprise peuvent être sérieuses.

Le surimpression d'un modèle est un piège courant car les gens veulent créer des modèles qui fonctionnent - et sont donc tentés de continuer à modifier les variables et les paramètres jusqu'à ce que le modèle fonctionne parfaitement - avec trop peu de données. L'erreur est humaine. Heureusement, il est également humain de créer des solutions réalistes.

Pour éviter de superposer votre modèle à votre jeu de données, assurez-vous de disposer d'un ensemble de données de test distinct de vos données d'exemple. Vous pouvez ensuite mesurer les performances de votre modèle de manière indépendante avant de rendre le modèle opérationnel.

Ainsi, une protection générale contre le surajustement consiste à diviser vos données en deux parties: les données d'entraînement et les données d'essai. La performance du modèle par rapport aux données de test vous dira si le modèle est prêt pour le monde réel.

Une autre bonne pratique consiste à s'assurer que vos données représentent la plus grande population du domaine pour lequel vous modélisez. Tout un modèle surentraîné connaît les caractéristiques spécifiques de l'ensemble de données pour lequel il a été formé. Si vous entraînez le modèle uniquement sur (par exemple) les ventes de raquettes en hiver, ne soyez pas surpris s'il échoue lamentablement lorsqu'il est à nouveau utilisé pour des données d'une autre saison.

Comment éviter un surajustement

Il vaut la peine de le répéter: Trop de réglages du modèle peuvent entraîner un surapprentissage. Un tel ajustement inclut trop de variables dans l'analyse. Gardez ces variables au minimum. N'incluez que les variables que vous considérez absolument nécessaires - celles que vous jugez importantes pour le résultat.

Cette idée ne vient que d'une connaissance intime du domaine d'activité dans lequel vous vous trouvez. C'est là que l'expertise des experts du domaine peut vous aider à ne pas tomber dans le piège de la surenchère.

Voici une liste des meilleures pratiques pour vous aider à éviter de sur-adapter votre modèle:

  • Choisissez un jeu de données représentatif de la population dans son ensemble.

  • Divisez votre ensemble de données en deux parties: données d'entraînement et données de test.

  • Gardez les variables analysées à un minimum sain pour la tâche à accomplir.

  • Demandez l'aide d'experts en connaissances du domaine.

Sur le marché boursier, par exemple, une technique analytique classique est back-testing : un modèle est comparé à des données historiques pour rechercher la meilleure stratégie de trading.

Supposons que, après avoir appliqué son nouveau modèle aux données générées par un marché haussier récent, et modifié le nombre de variables utilisées dans son analyse, l'analyste crée ce qui ressemble à une stratégie de trading optimale - une stratégie qui générerait les meilleurs rendements. si il pourrait revenir en arrière et échanger seulement pendant l'année qui a produit les données d'essai. Malheureusement, il ne peut pas. S'il essaie d'appliquer ce modèle dans un marché baissier actuel, regardez ci-dessous: Il subira des pertes en appliquant un modèle trop optimisé pour une période de temps étroite et un ensemble de conditions qui ne correspondent pas aux réalités actuelles. (Tellement pour des bénéfices hypothétiques.)

Le modèle a fonctionné seulement pour ce marché haussier disparu parce qu'il était surentraîné, portant les marques du contexte qui a produit les données d'échantillon - complet avec ses spécificités, les aberrantes, et les défauts. Toutes les circonstances entourant cet ensemble de données ne seront probablement pas répétées à l'avenir, ou dans une représentation réelle de la population entière - mais elles se sont toutes manifestées dans le modèle sur-ajusté.

Si la sortie d'un modèle est trop précise, considérez un indice pour regarder de plus près. Demandez l'aide d'experts en connaissances du domaine pour voir si vos résultats sont vraiment trop bons pour être vrais, et exécutez ce modèle sur plus de données de test pour d'autres comparaisons.

Utilisation de l'ajustement de courbe dans Predictive Analytics - L'ajustement de courbe

Le choix des éditeurs

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Est un pointeur sur le tableau lui-même. Le tableau est une séquence de variables stockée en mémoire. Le nom du tableau pointe vers le premier élément. C'est une question intéressante sur les pointeurs: Pouvez-vous avoir un en-tête de fonction, comme la ligne suivante, et juste utiliser sizeof pour déterminer comment ...

Boost Bibliothèques et C ++ - mannequins

Boost Bibliothèques et C ++ - mannequins

De nombreux développeurs utilisent les bibliothèques Boost car elles fournissent un code de haute qualité une partie de Boost est en train d'être normalisée pour être incluse dans la bibliothèque standard. L'une des meilleures choses à propos de Boost est que la bibliothèque elle-même est gratuite. Le site Web de Boost tient à faire savoir aux développeurs qu'ils ne ...

Casser les programmes Mis à part C ++ - les mannequins

Casser les programmes Mis à part C ++ - les mannequins

Le programmeur peut casser un seul programme en fichiers sources distincts généralement appelés modules. Ces modules sont compilés séparément dans le code machine par le compilateur C ++, puis combinés au cours du processus de génération pour générer un seul programme. Ces modules sont également connus par les geeks du compilateur en tant qu'unités de traduction C ++. Le processus de combinaison ...

Le choix des éditeurs

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

L'information l'affichage ne sert pas uniquement à vérifier les paramètres de prise de vue actuels; Cela vous donne également un accès rapide à certains des paramètres les plus critiques. La touche de cette fonction est le bouton Information Edit, situé à l'arrière de l'appareil photo, à droite du viseur. Voici comment cela fonctionne: Afficher les informations ...

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

En mode d'affichage hautes lumières sur votre Nikon D7100 pense que l'appareil photo peut être surexposé clignoter dans le moniteur de l'appareil photo. L'un des problèmes de photo les plus difficiles à corriger dans un programme de retouche photo est connu sous le nom de surbrillance dans certains cercles et de surbrillance dans d'autres. Les deux termes signifient que les zones les plus claires de ...

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Présentes en bas à gauche Au coin du Nikon D3300, le bouton i active une bande de contrôle qui vous donne un accès rapide à certains paramètres de prise de vue critiques. Voici comment utiliser la bande de contrôle pour la photographie dans le viseur: Affichez l'écran d'informations. Vous pouvez le faire en appuyant sur le bouton Info. Appuyez sur le bouton i. Le haut ...

Le choix des éditeurs

Comment imprimer vos diapositives et notes Keynote - Les tétines

Comment imprimer vos diapositives et notes Keynote - Les tétines

Lorsque vous créez une présentation dans Snow Leopard Application Keynote, vous ne pouvez pas toujours vouloir imprimer des documents. Cependant, si vous présentez un long diaporama avec beaucoup d'informations que vous aimeriez que votre public se souvienne, rien ne vaut les documents qui incluent des images réduites de vos diapositives (et, facultativement, les notes de votre présentateur). Vous pouvez ...

Comment réorganiser ou supprimer les signets - les mannequins

Comment réorganiser ou supprimer les signets - les mannequins

Safari enregistre vos signets et vos dossiers de signets dans l'ordre dans lequel vous les créez, en les ajoutant au bas d'une liste toujours croissante. Si vous continuez à ajouter des marque-pages au menu Signets sans les placer dans des dossiers, vous pouvez constater que vous avez un nombre de signets gazillion indiqué bon gré mal gré et que vous ne vous en souvenez plus ...

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Avec un compte MobileMe actif, iDisk est disponible et vous fournit un espace de stockage supplémentaire. Pour connaître l'espace de stockage utilisé et pour configurer l'accès à votre dossier Public, ouvrez les Préférences Système, cliquez sur l'icône MobileMe, puis sur le bouton iDisk pour afficher les paramètres. Vos paramètres iDisk sont disponibles dans les Préférences Système. Le ...