Table des matières:
Vidéo: Série Chronologique - Décomposition classique(Modèle additif) avec Excel- Partie3 2024
Lissage des données dans l'analyse prédictive essaie essentiellement de trouver le "signal" dans le "bruit" par rejeter les points de données considérés comme "bruyants". L'idée est d'affiner les modèles dans les données et de mettre en évidence les tendances vers lesquelles les données pointent.
L'implication derrière le lissage des données est que les données se composent de deux parties: une partie (composée des points de données de base ) qui indique les tendances globales ou réelles, et une autre partie constituée principalement d'écarts ( bruit ) - certains points fluctuants résultant d'une certaine volatilité des données. Le lissage des données vise à éliminer cette deuxième partie.
Comment réduire le bruit
Le lissage des données repose sur plusieurs hypothèses:
-
Cette fluctuation des données est la plus susceptible d'être du bruit.
-
Que la partie bruyante des données est de courte durée.
-
La fluctuation des données, quelle que soit leur variabilité, n'affectera pas les tendances sous-jacentes représentées par les points de données de base.
Le bruit dans les données tend à être aléatoire; ses fluctuations ne devraient pas affecter les tendances globales tirées de l'examen du reste des données. Ainsi, la réduction ou l'élimination des points de données bruyants peut clarifier les tendances et les modèles réels dans les données - en effet, améliorer le rapport signal / bruit des données. "
Si vous avez correctement identifié le bruit et l'avez ensuite réduit, le lissage des données peut vous aider à prédire le prochain point de données observé simplement en suivant les grandes tendances que vous avez détectées dans les données.
Le lissage des données concerne la majorité des points de données, leurs positions dans un graphique et ce que les modèles résultants prédisent sur la tendance générale (disons) d'un cours boursier, que sa direction générale soit ascendante, descendante ou latérale.
Cette technique ne permettra pas de prédire avec précision le prix exact du prochain trade pour un titre donné - mais prédire qu'une tendance générale peut donner des indications plus puissantes que de connaître le prix réel ou ses fluctuations.
Une prévision basée sur une tendance générale déduite des données lissées suppose que la direction suivie jusqu'à présent par les données se poursuivra dans le futur d'une manière cohérente avec la tendance. Sur le marché boursier, par exemple, les performances passées ne sont pas une indication précise des performances futures, mais elles peuvent certainement constituer un guide général des mouvements futurs du cours de l'action.
Méthodes, avantages et inconvénients du lissage des données
Le lissage des données ne doit pas être confondu avec l'ajustement d'un modèle qui fait partie de l'analyse des données en deux étapes:
-
Trouver un modèle qui représente les données.
-
Assurez-vous que le modèle correspond bien aux données.
Le lissage des données se concentre sur l'établissement d'une direction fondamentale pour les points de données principaux en (1) ignorant les points de données bruyants et (2) dessinant une courbe plus lisse à travers les points de données qui ignorent les tendances. les données, peu importe la lenteur de leur émergence. Par conséquent, dans une série temporelle numérique, le lissage des données sert de forme de filtrage.
Le lissage des données peut utiliser l'une des méthodes suivantes:
-
Random walk est basé sur l'idée que le résultat suivant, ou futur point de données, est un écart aléatoire du dernier point de données connu ou présent.
-
La moyenne mobile est une moyenne mobile de périodes consécutives, équidistantes. Un exemple serait le calcul d'une moyenne mobile de 200 jours d'un cours de bourse.
-
Le lissage exponentiel attribue de façon exponentielle plus de poids ou d'importance aux points de données récents qu'aux points de données plus anciens.
-
Simple: Cette méthode doit être utilisée lorsque les données de la série chronologique n'ont aucune tendance et aucune saisonnalité.
-
Linéaire: Cette méthode doit être utilisée lorsque les données de série chronologique ont une ligne de tendance.
-
Saisonnier: Cette méthode doit être utilisée lorsque les données de la série chronologique ne présentent aucune tendance mais une saisonnalité.
-
Ce que ces méthodes de lissage ont en commun, c'est qu'elles effectuent une sorte de calcul de la moyenne sur plusieurs points de données. Une telle moyenne des points de données adjacents est la façon essentielle de se concentrer sur les tendances ou les modèles sous-jacents.
Les avantages du lissage des données sont
-
Facile à mettre en œuvre.
-
Il aide à identifier les tendances.
-
Cela permet d'exposer les motifs dans les données.
-
Il élimine les points de données que vous avez jugés sans intérêt.
-
Il aide à prédire la direction générale des points de données observés suivants.
-
Il génère de beaux graphiques lisses.
Mais tout a un inconvénient. Les inconvénients du lissage des données sont
-
. Il peut éliminer les points de données valides résultant d'événements extrêmes.
-
Cela peut conduire à des prédictions inexactes si les données de test sont uniquement saisonnières et ne sont pas totalement représentatives de la réalité qui a généré les points de données.
-
Cela peut modifier ou fausser les données, en particulier les pics, ce qui donne une image déformée de ce qui se passe.
-
Il peut être vulnérable à une perturbation significative des valeurs aberrantes dans les données.
-
Cela peut entraîner un écart important par rapport aux données d'origine.
Si le lissage des données ne fait que donner aux données un simple lifting, il peut être fondamentalement erroné de la façon suivante:
-
Il peut introduire des erreurs par distorsions qui traitent les données lissées comme si elles étaient identiques à l'original Les données.
-
Il peut fausser l'interprétation en ignorant - et en cachant - les risques intégrés dans les données.
-
Cela peut entraîner une perte de détails dans vos données, ce qui est une façon pour une courbe lissée de dévier considérablement de celle des données d'origine.
L'importance du lissage des données pour vos données dépend de la nature des données disponibles et de la technique de lissage qui a été implémentée sur ces données.Par exemple, si les données d'origine ont plus de pics, le lissage des données entraînera un décalage majeur des pics dans les graphiques lissés - probablement une distorsion.
Voici quelques points de mise en garde à garder à l'esprit lorsque vous approchez du lissage des données:
-
Il est judicieux de comparer des graphiques lissés à des graphiques intacts qui représentent les données d'origine.
-
Les points de données supprimés lors du lissage des données peuvent ne pas être des parasites. ils pourraient être valides, de vrais points de données résultant d'événements rares mais réels.
-
Le lissage des données peut être utile avec modération, mais sa surutilisation peut conduire à une fausse représentation de vos données.
En appliquant votre jugement professionnel et votre expertise en matière de connaissances métier, vous pouvez utiliser efficacement le lissage des données. Supprimer le bruit de vos données - sans affecter négativement la précision et l'utilité des données originales - est au moins autant un art qu'une science.