Vidéo: R pour les Nuls - Test de Mann-Whitney avec R 2024
Lorsque vos données sont prêtes et que vous êtes sur le point d'élaborer votre modèle prédictif pour analyse, il est utile de décrire votre méthodologie de test et de rédiger un plan de test. Les tests doivent être guidés par les objectifs commerciaux que vous avez collectés, documentés et collectés afin de vous aider à atteindre les objectifs.
Dès le départ, vous devriez concevoir une méthode pour vérifier si un objectif commercial a été atteint avec succès. Étant donné que l'analyse prédictive mesure la probabilité d'un résultat futur - et que la seule façon d'être prêt à exécuter un tel test est de former votre modèle sur les données passées, vous devez toujours voir ce qu'il peut faire face aux futures données.
Bien sûr, vous ne pouvez pas risquer d'exécuter un modèle non testé sur de vraies données futures, vous devrez donc utiliser les données existantes pour simuler les données futures de manière réaliste. Pour ce faire, vous devez diviser les données sur lesquelles vous travaillez en formations et tester des jeux de données.
Assurez-vous de sélectionner au hasard ces deux jeux de données et que les deux jeux de données contiennent et couvrent tous les paramètres de données que vous mesurez.
Lorsque vous divisez vos données en ensembles de données de test et d'apprentissage, vous évitez efficacement les problèmes de sur-apprentissage pouvant survenir lors du sur-entraînement du modèle sur l'ensemble de données et de tous les modèles de bruit ou fonctionnalités spécifiques. et ne sont pas applicables à d'autres ensembles de données.
La séparation de vos données en ensembles de données d'apprentissage et de test, environ 70% et 30% respectivement, garantit une mesure précise des performances du modèle d'analyse prédictive que vous construisez. Vous souhaitez évaluer votre modèle par rapport aux données de test, car c'est un moyen simple de mesurer si les prédictions du modèle sont exactes.