Formation, validation et test dans l'apprentissage automatique - les nuls

Vidéo: PYTHON SKLEARN - MODEL SELECTION : Train_test_split, Cross Validation, GridSearchCV (21/30) 2025

Dans un monde parfait, vous pouvez effectuer un test sur des données dont votre algorithme d'apprentissage automatique n'a jamais appris auparavant. Cependant, attendre de nouvelles données n'est pas toujours réalisable en termes de temps et de coûts.

En tant que premier remède simple, vous pouvez répartir de manière aléatoire vos données dans des ensembles de formation et de test. La division commune est de 25 à 30% pour les tests et les 75% restants pour la formation. Vous divisez vos données comprenant votre réponse et vos caractéristiques en même temps, en gardant une correspondance entre chaque réponse et ses caractéristiques.

Le deuxième remède survient lorsque vous devez régler votre algorithme d'apprentissage. Dans ce cas, les données de partage de test ne sont pas une bonne pratique car elles provoquent un autre type de surapprentissage appelé espionnage. Pour surmonter l'espionnage, vous avez besoin d'une troisième division, appelée jeu de validation. Une suggestion de partage consiste à partitionner les exemples en tiers: 70% pour la formation, 20% pour la validation et 10% pour les tests.

Vous devez effectuer la répartition de manière aléatoire, c'est-à-dire indépendamment de l'ordre initial des données. Sinon, votre test ne sera pas fiable, car la commande pourrait entraîner une surestimation (quand il y a un ordre significatif) ou une sous-estimation (quand la distribution diffère trop). En tant que solution, vous devez vous assurer que la distribution de l'ensemble de tests n'est pas très différente de la distribution de formation et que l'ordre séquentiel se produit dans les données de division.

Par exemple, vérifiez si les numéros d'identification, lorsqu'ils sont disponibles, sont continus dans vos ensembles. Parfois, même si vous respectez strictement l'échantillonnage aléatoire, vous ne pouvez pas toujours obtenir des distributions similaires entre les ensembles, surtout lorsque votre nombre d'exemples est petit.

Lorsque votre nombre d'exemples n est élevé, par exemple n> 10 000, vous pouvez créer avec confiance un ensemble de données divisé de manière aléatoire. Lorsque l'ensemble de données est plus petit, la comparaison des statistiques de base telles que la moyenne, le mode, la médiane et la variance dans la réponse et les fonctionnalités des ensembles de formation et de test vous aidera à déterminer si l'ensemble de tests est inapproprié. Lorsque vous n'êtes pas sûr que le fractionnement est correct, recalculez-en un nouveau.