Vidéo: EXCEL - Analyse de PARETO sur des CA de fournisseurs 2024
Une fois que vous avez tous les outils et les données nécessaires pour commencer à créer un modèle prédictif, le plaisir commence. En général, la création d'un modèle d'apprentissage pour les tâches de classification implique les étapes suivantes:
-
Charger les données.
-
Choisissez un classificateur.
-
Entraînez le modèle.
-
Visualisez le modèle.
-
Testez le modèle.
-
Évaluez le modèle.
Les modèles de régression logistique et de SVM (Support Vector Machine) fonctionnent assez bien avec l'ensemble de données Iris.
Longueur de sépale | Largeur de sépale | Longueur de pétale | Largeur de pétale | Classe / étiquette cible |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Le modèle de régression logistique avec le paramètre C = 1 était parfait dans ses prédictions, alors que le modèle SVM et le modèle de régression logistique avec C = 150 manquaient une seule prédiction. En effet, la grande précision des deux modèles résulte de la présence d'un petit ensemble de données dont les points de données sont assez proches de la séparation linéaire.
Il est intéressant de noter que le modèle de régression logistique avec C = 150 avait un tracé de surface de décision plus beau que celui avec C = 1, mais il n'a pas donné de meilleurs résultats. Ce n'est pas un gros problème, étant donné que le test est si petit. Si une autre répartition aléatoire entre l'ensemble d'entraînement et l'ensemble d'essai avait été sélectionnée, les résultats auraient pu être facilement différents.
Ceci révèle une autre source de complexité qui apparaît dans l'évaluation du modèle: l'effet de l'échantillonnage, et comment le choix des ensembles de formation et de test peut affecter la production du modèle. Les techniques de validation croisée peuvent aider à minimiser l'impact de l'échantillonnage aléatoire sur les performances du modèle.
Pour un ensemble de données plus volumineux avec des données non linéairement séparables, les résultats devraient dévier encore davantage. En outre, le choix du modèle approprié devient de plus en plus difficile en raison de la complexité et de la taille des données. Soyez prêt à passer beaucoup de temps à régler vos paramètres pour obtenir un ajustement idéal.
Lors de la création de modèles prédictifs, essayez quelques algorithmes et affinez leurs paramètres de manière exhaustive jusqu'à ce que vous trouviez ce qui fonctionne le mieux pour vos données. Puis comparez leurs sorties les unes par rapport aux autres.