Accueil Finances personnelles Recourant à la validation croisée dans l'apprentissage automatique - mannequins

Recourant à la validation croisée dans l'apprentissage automatique - mannequins

Vidéo: Angular 2.0 - tutoriel 12 : créer un formulaire programmatiquement 2025

Vidéo: Angular 2.0 - tutoriel 12 : créer un formulaire programmatiquement 2025
Anonim

Parfois, l'apprentissage automatique nécessite de recourir à la validation croisée. Un problème notable avec le partage train / test est que vous introduisez un biais dans vos tests car vous réduisez la taille de vos données d'entraînement dans l'échantillon. Lorsque vous divisez vos données, vous pouvez conserver certains exemples utiles hors de la formation. De plus, vos données sont parfois si complexes qu'un ensemble de tests, bien qu'apparemment similaire à l'ensemble d'apprentissage, n'est pas vraiment similaire parce que les combinaisons de valeurs sont différentes (ce qui est typique des ensembles de données hautement dimensionnels).

Ces problèmes ajoutent à l'instabilité des résultats d'échantillonnage lorsque vous n'avez pas beaucoup d'exemples. Le risque de partager vos données de manière défavorable explique également pourquoi le partage train / test n'est pas la solution privilégiée par les praticiens de l'apprentissage automatique lorsque vous devez évaluer et régler une solution d'apprentissage automatique.

La validation croisée basée sur les k-folds est en fait la réponse. Il repose sur la division aléatoire, mais cette fois, il divise vos données en un nombre k de plis (parties de vos données) de taille égale. Ensuite, chaque pli est tenu à tour de rôle comme un ensemble de test et les autres sont utilisés pour l'entraînement. Chaque itération utilise un pli différent comme test, ce qui produit une estimation d'erreur.

En effet, après avoir terminé le test sur un pli contre les autres utilisés comme entraînement, un pli successif, différent du précédent, est tenu et la procédure est répétée afin de produire une autre estimation d'erreur. Le processus se poursuit jusqu'à ce que tous les k-folds soient utilisés une fois comme test et que vous ayez un nombre d'estimations d'erreur que vous pouvez calculer en une estimation d'erreur moyenne (score de validation croisée) et une erreur standard des estimations.

Une représentation graphique du fonctionnement de la validation croisée.

Cette procédure offre les avantages suivants:

  • Cela fonctionne bien quel que soit le nombre d'exemples, car en augmentant le nombre de plis utilisés, vous augmentez la taille de votre ensemble d'entraînement (plus grand, plus grand ensemble d'entraînement, polarisation réduite) et en diminuant la taille de l'ensemble de test.
  • Les différences de distribution pour les plis individuels importent peu. Quand un pli a une distribution différente par rapport aux autres, il est utilisé une seule fois comme un ensemble de test et est mélangé avec d'autres dans le cadre de l'ensemble d'entraînement pendant les tests restants.
  • Vous êtes en train de tester toutes les observations, donc vous testez complètement votre hypothèse d'apprentissage automatique en utilisant toutes les données que vous avez.
  • En prenant la moyenne des résultats, vous pouvez vous attendre à une performance prédictive. En outre, l'écart-type des résultats peut vous indiquer la variation que vous pouvez espérer dans les données réelles hors échantillon. Une variation plus élevée des performances validées croisées vous informe de données extrêmement variées que l'algorithme est incapable de saisir correctement.

L'utilisation de la validation croisée par k-fold est toujours le choix optimal, sauf si les données que vous utilisez ont un ordre qui compte. Par exemple, il pourrait s'agir d'une série chronologique, telle que les ventes. Dans ce cas, vous ne devez pas utiliser une méthode d'échantillonnage aléatoire mais vous baser sur un partage train / test basé sur la séquence d'origine afin que l'ordre soit préservé et que vous puissiez tester les derniers exemples de cette série ordonnée.

Recourant à la validation croisée dans l'apprentissage automatique - mannequins

Le choix des éditeurs

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Comment envoyer une demande de connexion LinkedIn à un membre existant - des nuls

Quand vous ' re sur une page LinkedIn et repérez le nom d'un membre que vous souhaitez inviter sur votre réseau, vous pouvez suivre ces étapes pour envoyer une demande de connexion à cette personne.

Comment rechercher LinkedIn par nom - mannequins

Comment rechercher LinkedIn par nom - mannequins

Lorsque vous souhaitez trouver une personne spécifique sur LinkedIn, vous pouvez recherche par nom. LinkedIn a développé des champs spéciaux de recherche de nom et de prénom pour vous aider à trouver cette personne. Lorsque vous effectuez une recherche par nom, vous devez entrer le nom de famille; entrer le prénom est facultatif. Lorsque vous êtes prêt à rechercher ...

Rechercher LinkedIn par mot-clé - dummies

Rechercher LinkedIn par mot-clé - dummies

Lorsque vous effectuez une recherche par mot-clé, LinkedIn analyse les profils de chacun pour trouver un mot correspondant. Vous pouvez mettre n'importe quel type de compétence, de mot à la mode, d'intérêt ou d'autre mot-clé qui serait présent dans le profil de quelqu'un pour voir qui est dans votre réseau. Pour effectuer une recherche par mot-clé, procédez comme suit:

Le choix des éditeurs

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Encouragez votre blog visiteurs à Digg votre contenu - mannequins

Digg est un service Web dédié à facilement utilisables contenu alimenté. Digg se spécialise dans l'évaluation de la communauté des utilisateurs et le vote, ce qui permet aux utilisateurs de soumettre et de voter sur le contenu, les commentaires, les vidéos ou les images qui sont importants et ceux qui ne le sont pas. Digg est un excellent outil pour garder un œil sur ce qui est populaire et intéressant en ligne, en particulier ...

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Habiller votre podcast avec de la musique et des effets sonores - des mannequins

Rien ne pimente un podcast petite intro ou musique de fond. Mais les podcasts - même s'ils sont produits et libérés sans frais pour l'auditeur - ne sont pas exemptés des restrictions de droits d'auteur. Vous devez rechercher de la musique ou des images appartenant au domaine public ou autorisées à être republiées. Soyons clairs: même si ...

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Appliquer les règles de la communauté en ligne: quand interdire les membres - mannequins

Demandant aux membres de quitter une communauté en ligne Cela va à contre-courant quand il s'agit de construire une communauté. Les gestionnaires de communauté veulent ajouter de nouveaux membres, ne pas se débarrasser d'eux. Pourtant, à certaines occasions, vous devez révoquer les adhésions parce que les membres refusent simplement de respecter les règles: Quand vous les avez prévenus ...

Le choix des éditeurs

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Comment créer un tableau croisé dynamique dans Excel 2010 - dummies

Un tableau croisé dynamique est un type spécial de tableau récapitulatif qui est unique à Excel. Les tableaux croisés dynamiques sont parfaits pour synthétiser des valeurs dans une table car ils font leur magie sans vous obliger à créer des formules pour effectuer les calculs. Les tableaux croisés dynamiques vous permettent également de jouer avec l'arrangement des données résumées. C'est cette capacité ...

Comment créer un diagramme de dispersion dans Excel - des nuls

Comment créer un diagramme de dispersion dans Excel - des nuls

L'une des formes de données les plus intéressantes et utiles analyse que vous pouvez effectuer dans Excel est l'analyse de régression. Dans l'analyse de régression, vous explorez la relation entre deux ensembles de valeurs, en recherchant l'association. Par exemple, vous pouvez utiliser l'analyse de régression pour déterminer si les dépenses publicitaires sont associées aux ventes, si le tabagisme est associé ...

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Comment créer des graphiques via l'outil d'analyse rapide dans Excel 2013 - les nuls

Pour ceux Lorsque vous devez sélectionner un sous-ensemble d'une table de données comme plage à représenter dans Excel 2013 (par opposition à la sélection d'une seule cellule dans une table de données), vous pouvez utiliser le nouvel outil Analyse rapide pour créer votre graphique. Procédez comme suit: