Comment utiliser le modèle de Markov dans Predictive Analytics - mannequins

Le modèle de Markov est un modèle statistique qui peut être utilisé dans l'analyse prédictive reposant fortement sur la théorie des probabilités. (Il tire son nom d'un mathématicien russe dont la recherche principale portait sur la théorie des probabilités.)

Voici un scénario pratique qui illustre comment cela fonctionne: Imaginez que vous voulez prédire si l'équipe X va gagner le match de demain. La première chose à faire est de recueillir des statistiques antérieures sur l'équipe X. La question qui pourrait se poser est de savoir jusqu'où vous devriez retourner dans l'histoire?

Supposons que vous ayez réussi à atteindre les 10 derniers résultats du jeu en séquence. Vous voulez connaître la probabilité que l'équipe X remporte le prochain match compte tenu des résultats des 10 derniers matchs.

Le problème est que plus on avance dans l'histoire, plus la collecte des données et le calcul des probabilités deviennent complexes.

Croyez-le ou non, le modèle de Markov vous simplifie la vie en vous fournissant l' Hypothèse de Markov, qui ressemble à ceci lorsque vous l'écrivez en mots:

La probabilité qu'un événement se produise, compte tenu des événements passés n , est approximativement égale à la probabilité qu'un tel événement se produise juste pour le dernier événement passé.

Écrit en formule, l'hypothèse de Markov ressemble à ceci:

Dans tous les cas, l'hypothèse de Markov signifie que vous n'avez pas besoin d'aller trop loin dans l'histoire pour prédire les résultats de demain. Vous pouvez simplement utiliser l'événement passé le plus récent. C'est ce qu'on appelle la prédiction de premier ordre de Markov parce que vous ne tenez compte que du dernier événement pour prédire l'événement futur.

A La prédiction de Markov du second ordre inclut uniquement les deux derniers événements qui se déroulent en séquence. À partir de l'équation qui vient d'être donnée, on peut également déduire l'équation suivante:

Cette équation vise à calculer la probabilité que certains événements se produisent dans l'ordre: événement ₁ après événement ₂ , et ainsi de suite. Cette probabilité peut être calculée en multipliant la probabilité de chaque événement _t (compte tenu de l'événement précédent) par l'événement suivant dans la séquence. Par exemple, supposons que vous vouliez prédire la probabilité que l'équipe X gagne, puis perd, puis lie.

Voici comment un modèle prédictif typique basé sur un modèle de Markov fonctionnerait. Prenons le même exemple: Supposons que vous vouliez prédire les résultats d'un match de football devant être joué par l'équipe X. Les trois résultats possibles - appelés états - sont victoire, perte ou égalité.

Supposons que vous ayez recueilli des données statistiques sur les résultats des matchs de football de l'équipe X, et que l'équipe X ait perdu sa partie la plus récente. Vous voulez prédire le résultat du prochain match de football. Il s'agit de deviner si l'équipe X va gagner, perdre ou égaliser - en se basant uniquement sur les données des jeux précédents. Alors, voici comment vous utilisez un modèle de Markov pour faire cette prédiction.

Calculez des probabilités basées sur des données antérieures.

Par exemple, combien de fois l'équipe X a-t-elle perdu des parties? Combien de fois l'équipe X a-t-elle gagné des matchs? Par exemple, imaginez si l'équipe X a remporté 6 matchs sur 10 au total. Ensuite, l'équipe X a gagné 60% du temps. En d'autres termes, la probabilité de gagner pour l'équipe X est de 60%.
Calculez la probabilité d'une perte, puis la probabilité d'une égalité, de la même manière.
Utilisez l'équation de probabilité Naïve Bayes pour calculer les probabilités suivantes:
- Probabilité que l'équipe X gagne, étant donné que l'équipe X a perdu le dernier match.
- La probabilité que l'équipe X perde, étant donné que l'équipe X a remporté le dernier match.
Calculez les probabilités pour chaque état (victoire, perte ou égalité).
En supposant que l'équipe ne joue qu'une partie par jour, les probabilités sont les suivantes:
- P (Win | Perte) est la probabilité que l'équipe X va gagner aujourd'hui, étant donné qu'elle a perdu hier.
- P (Win | Tie) est la probabilité que l'équipe X va gagner aujourd'hui, étant donné qu'elle a fait match nul hier.
- P (Win | Win) est la probabilité que l'équipe X gagne aujourd'hui, étant donné qu'elle a gagné hier.
En utilisant les probabilités calculées, créez un graphique.

Un cercle dans ce tableau représente un état possible que l'équipe X peut atteindre à tout moment (victoire, défaite, égalité); les chiffres sur les flèches représentent les probabilités que l'équipe X puisse passer d'un état à un autre.

Par exemple, si l'équipe X vient de gagner le match d'aujourd'hui (son état actuel = victoire), la probabilité que l'équipe gagne à nouveau est de 60%; la probabilité qu'ils perdent le prochain match est de 20% (auquel cas ils passeraient de l'état actuel = victoire à l'état futur = perte).

Supposons que vous vouliez connaître les chances que l'équipe X remporte deux matchs consécutifs et en perd le troisième. Comme vous pouvez l'imaginer, ce n'est pas une prédiction simple à faire.

Cependant, en utilisant le graphique que vous venez de créer et l'hypothèse de Markov, vous pouvez facilement prédire les chances qu'un tel événement se produise. Vous commencez avec l'état de victoire, marchez à travers l'état de victoire encore, et enregistrez 60 pour cent; alors vous passez à l'état de perte et enregistrez 20 pour cent.

Les chances que l'équipe X gagne deux fois et perdent le troisième jeu deviennent simples à calculer: 60% 60% fois 20%, soit 60% * 60% * 20%, ce qui équivaut à 72%.

Alors, quelles sont les chances que l'équipe X gagne, puis égalité, puis deux fois après? La réponse est de 20% (passage de l'état de victoire à l'état de cravate) multiplié par 20% (passant de l'égalité à la perte), multiplié par 35% (passant de la perte à la perte) par 35% (passant de la perte à la perte). Le résultat est de 49%.