Utilisation de l'ajustement de courbe dans Predictive Analytics - L'ajustement de courbe

L'ajustement de courbe est un processus utilisé dans l'analyse prédictive dont l'objectif est de créer une courbe qui représente la fonction mathématique qui correspond le mieux aux points de données réels (originaux) dans une série de données.

La courbe peut traverser chaque point de données ou rester dans la masse des données, en ignorant certains points de données dans l'espoir de tirer des tendances à partir des données. Dans les deux cas, une seule fonction mathématique est assignée à l'ensemble des données, dans le but d'ajuster tous les points de données en une courbe qui délimite les tendances et facilite la prédiction.

L'ajustement de la courbe peut être réalisé de l'une des trois manières suivantes:

En trouvant un ajustement exact pour chaque point de données (un processus appelé interpolation )
En restant dans la plus grande partie des données tout en ignorant certains points de données dans l'espoir d'extraire les tendances des données
En utilisant le lissage des données pour obtenir une fonction qui représente le graphique lissé

L'ajustement de courbe peut être utilisé pour remplir les points de données possibles afin de remplacer les valeurs manquantes ou aider les analystes à visualiser les données.

Lorsque vous créez un modèle d'analyse prédictive, évitez d'adapter votre modèle à votre échantillon de données. Un tel modèle échouera - misérablement - à prédire des ensembles de données similaires mais variables en dehors de l'échantillon de données. Ajuster un modèle de trop près à un échantillon de données particulier est une erreur classique appelée overfitting .

Les malheurs de l'overfitting

En fait, le surajustement d'un modèle est ce qui se passe quand on surmène le modèle pour représenter uniquement les données de votre échantillon - ce qui n'est pas une bonne représentation des données dans son ensemble. Sans un ensemble de données plus réaliste, le modèle peut alors être confronté à des erreurs et à des risques lorsqu'il sera opérationnel - et les conséquences pour votre entreprise peuvent être sérieuses.

Le surimpression d'un modèle est un piège courant car les gens veulent créer des modèles qui fonctionnent - et sont donc tentés de continuer à modifier les variables et les paramètres jusqu'à ce que le modèle fonctionne parfaitement - avec trop peu de données. L'erreur est humaine. Heureusement, il est également humain de créer des solutions réalistes.

Pour éviter de superposer votre modèle à votre jeu de données, assurez-vous de disposer d'un ensemble de données de test distinct de vos données d'exemple. Vous pouvez ensuite mesurer les performances de votre modèle de manière indépendante avant de rendre le modèle opérationnel.

Ainsi, une protection générale contre le surajustement consiste à diviser vos données en deux parties: les données d'entraînement et les données d'essai. La performance du modèle par rapport aux données de test vous dira si le modèle est prêt pour le monde réel.

Une autre bonne pratique consiste à s'assurer que vos données représentent la plus grande population du domaine pour lequel vous modélisez. Tout un modèle surentraîné connaît les caractéristiques spécifiques de l'ensemble de données pour lequel il a été formé. Si vous entraînez le modèle uniquement sur (par exemple) les ventes de raquettes en hiver, ne soyez pas surpris s'il échoue lamentablement lorsqu'il est à nouveau utilisé pour des données d'une autre saison.

Comment éviter un surajustement

Il vaut la peine de le répéter: Trop de réglages du modèle peuvent entraîner un surapprentissage. Un tel ajustement inclut trop de variables dans l'analyse. Gardez ces variables au minimum. N'incluez que les variables que vous considérez absolument nécessaires - celles que vous jugez importantes pour le résultat.

Cette idée ne vient que d'une connaissance intime du domaine d'activité dans lequel vous vous trouvez. C'est là que l'expertise des experts du domaine peut vous aider à ne pas tomber dans le piège de la surenchère.

Voici une liste des meilleures pratiques pour vous aider à éviter de sur-adapter votre modèle:

Choisissez un jeu de données représentatif de la population dans son ensemble.
Divisez votre ensemble de données en deux parties: données d'entraînement et données de test.
Gardez les variables analysées à un minimum sain pour la tâche à accomplir.
Demandez l'aide d'experts en connaissances du domaine.

Sur le marché boursier, par exemple, une technique analytique classique est back-testing : un modèle est comparé à des données historiques pour rechercher la meilleure stratégie de trading.

Supposons que, après avoir appliqué son nouveau modèle aux données générées par un marché haussier récent, et modifié le nombre de variables utilisées dans son analyse, l'analyste crée ce qui ressemble à une stratégie de trading optimale - une stratégie qui générerait les meilleurs rendements. si il pourrait revenir en arrière et échanger seulement pendant l'année qui a produit les données d'essai. Malheureusement, il ne peut pas. S'il essaie d'appliquer ce modèle dans un marché baissier actuel, regardez ci-dessous: Il subira des pertes en appliquant un modèle trop optimisé pour une période de temps étroite et un ensemble de conditions qui ne correspondent pas aux réalités actuelles. (Tellement pour des bénéfices hypothétiques.)

Le modèle a fonctionné seulement pour ce marché haussier disparu parce qu'il était surentraîné, portant les marques du contexte qui a produit les données d'échantillon - complet avec ses spécificités, les aberrantes, et les défauts. Toutes les circonstances entourant cet ensemble de données ne seront probablement pas répétées à l'avenir, ou dans une représentation réelle de la population entière - mais elles se sont toutes manifestées dans le modèle sur-ajusté.

Si la sortie d'un modèle est trop précise, considérez un indice pour regarder de plus près. Demandez l'aide d'experts en connaissances du domaine pour voir si vos résultats sont vraiment trop bons pour être vrais, et exécutez ce modèle sur plus de données de test pour d'autres comparaisons.