Accueil Finances personnelles Comment créer un modèle d'analyse prédictive avec régression R - les nuls

Comment créer un modèle d'analyse prédictive avec régression R - les nuls

Vidéo: Corrélation et Régression Linéaire Simple avec R 2024

Vidéo: Corrélation et Régression Linéaire Simple avec R 2024
Anonim

Vous souhaitez créer un modèle d'analyse prédictive que vous pouvez évaluer en utilisant des résultats connus. Pour ce faire, nous allons diviser notre ensemble de données en deux ensembles: un pour la formation du modèle et un pour tester le modèle. Une répartition 70/30 entre les ensembles de données d'apprentissage et de formation suffira. Les deux lignes de code suivantes calculent et stockent les tailles de chaque ensemble: >> trainSize testSize <- nrow (autos) - trainSize

Pour afficher les valeurs, tapez le nom de la variable utilisée pour stocker la valeur et appuyez sur Entrée. Voici la sortie:

>> trainSize [1] 279> testSize [1] 119

Ce code détermine les tailles des jeux de données que vous avez l'intention de créer pour nos jeux de données d'apprentissage et de test. Vous n'avez toujours pas créé ces ensembles. De plus, vous ne voulez pas simplement appeler les 279 premières observations de l'ensemble de formation et appeler les 119 dernières observations de l'ensemble de test. Cela créerait un mauvais modèle parce que l'ensemble de données semble ordonné. Plus précisément, la colonne modelYear est classée du plus petit au plus grand.

En examinant les données, vous pouvez voir que la plupart des autos plus lourdes, à huit cylindres, à plus grande cylindrée et plus puissantes se trouvent en haut de l'ensemble de données. De cette observation, sans avoir à exécuter d'algorithmes sur les données, vous pouvez déjà dire que (en général pour ce jeu de données) voitures plus anciennes par rapport aux voitures plus récentes comme suit:

sont plus lourds

ont huit cylindres

  • ont plus grand déplacement

  • Avoir une plus grande puissance

    Bon, évidemment, beaucoup de gens connaissent quelque chose sur les automobiles, alors devinez ce que sont les corrélations ne sera pas trop tiré par les cheveux après avoir vu les données. Quelqu'un avec beaucoup de connaissances de l'automobile peut-être déjà connu sans même regarder les données.
  • Ceci est juste un exemple simple d'un domaine (voitures) auquel de nombreuses personnes peuvent s'identifier. S'il s'agissait de données sur le cancer, cependant, la plupart des gens ne comprendraient pas immédiatement ce que chaque attribut signifie.

C'est là qu'un expert du domaine et un modeleur de données sont essentiels au processus de modélisation. Les experts du domaine peuvent avoir la meilleure connaissance des attributs les plus importants (ou les moins importants) et de la manière dont les attributs sont en corrélation les uns avec les autres.

Ils peuvent suggérer au modélisateur de données les variables à expérimenter. Ils peuvent donner des poids plus importants à des attributs plus importants et / ou des poids plus petits à des attributs de moindre importance (ou les supprimer complètement).

Vous devez donc créer un jeu de données d'apprentissage et un jeu de données de test réellement représentatif de l'ensemble. Une façon de le faire est de créer l'ensemble d'apprentissage à partir d'une sélection aléatoire de l'ensemble de données entier.De plus, vous voulez que ce test soit reproductible pour que vous puissiez apprendre du même exemple.

Fixez ainsi la graine pour le générateur aléatoire afin que nous ayons le même jeu d'entraînement "aléatoire". Le code suivant fait cette tâche: >> set. seed (123)> training_indices <- exemple (seq_len (nrow (autos)), size = trainSize)> trainSet testSet <- autos [-training_indices,]

Le jeu d'apprentissage contient 279 observations, ainsi que les résultats (mpg) de chaque observation. L'algorithme de régression utilise le résultat pour former le modèle en examinant les relations entre les variables prédictives (l'un des sept attributs) et la variable de réponse (mpg).

L'ensemble de test contient le reste des données (c'est-à-dire la partie non incluse dans l'ensemble d'apprentissage). Vous devriez remarquer que l'ensemble de test inclut également la variable de réponse (mpg). 

Lorsque vous utilisez la fonction de prédiction (du modèle) avec l'ensemble de test, il ignore la variable de réponse et utilise uniquement les variables de prédicteur tant que les noms de colonne sont identiques à ceux de l'ensemble d'apprentissage.

Pour créer un modèle de régression linéaire qui utilise l'attribut mpg comme variable de réponse et toutes les autres variables comme variables prédictives, tapez la ligne de code suivante: >> model

Comment créer un modèle d'analyse prédictive avec régression R - les nuls

Le choix des éditeurs

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Est un pointeur sur le tableau lui-même. Le tableau est une séquence de variables stockée en mémoire. Le nom du tableau pointe vers le premier élément. C'est une question intéressante sur les pointeurs: Pouvez-vous avoir un en-tête de fonction, comme la ligne suivante, et juste utiliser sizeof pour déterminer comment ...

Boost Bibliothèques et C ++ - mannequins

Boost Bibliothèques et C ++ - mannequins

De nombreux développeurs utilisent les bibliothèques Boost car elles fournissent un code de haute qualité une partie de Boost est en train d'être normalisée pour être incluse dans la bibliothèque standard. L'une des meilleures choses à propos de Boost est que la bibliothèque elle-même est gratuite. Le site Web de Boost tient à faire savoir aux développeurs qu'ils ne ...

Casser les programmes Mis à part C ++ - les mannequins

Casser les programmes Mis à part C ++ - les mannequins

Le programmeur peut casser un seul programme en fichiers sources distincts généralement appelés modules. Ces modules sont compilés séparément dans le code machine par le compilateur C ++, puis combinés au cours du processus de génération pour générer un seul programme. Ces modules sont également connus par les geeks du compilateur en tant qu'unités de traduction C ++. Le processus de combinaison ...

Le choix des éditeurs

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

L'information l'affichage ne sert pas uniquement à vérifier les paramètres de prise de vue actuels; Cela vous donne également un accès rapide à certains des paramètres les plus critiques. La touche de cette fonction est le bouton Information Edit, situé à l'arrière de l'appareil photo, à droite du viseur. Voici comment cela fonctionne: Afficher les informations ...

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

En mode d'affichage hautes lumières sur votre Nikon D7100 pense que l'appareil photo peut être surexposé clignoter dans le moniteur de l'appareil photo. L'un des problèmes de photo les plus difficiles à corriger dans un programme de retouche photo est connu sous le nom de surbrillance dans certains cercles et de surbrillance dans d'autres. Les deux termes signifient que les zones les plus claires de ...

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Présentes en bas à gauche Au coin du Nikon D3300, le bouton i active une bande de contrôle qui vous donne un accès rapide à certains paramètres de prise de vue critiques. Voici comment utiliser la bande de contrôle pour la photographie dans le viseur: Affichez l'écran d'informations. Vous pouvez le faire en appuyant sur le bouton Info. Appuyez sur le bouton i. Le haut ...

Le choix des éditeurs

Comment imprimer vos diapositives et notes Keynote - Les tétines

Comment imprimer vos diapositives et notes Keynote - Les tétines

Lorsque vous créez une présentation dans Snow Leopard Application Keynote, vous ne pouvez pas toujours vouloir imprimer des documents. Cependant, si vous présentez un long diaporama avec beaucoup d'informations que vous aimeriez que votre public se souvienne, rien ne vaut les documents qui incluent des images réduites de vos diapositives (et, facultativement, les notes de votre présentateur). Vous pouvez ...

Comment réorganiser ou supprimer les signets - les mannequins

Comment réorganiser ou supprimer les signets - les mannequins

Safari enregistre vos signets et vos dossiers de signets dans l'ordre dans lequel vous les créez, en les ajoutant au bas d'une liste toujours croissante. Si vous continuez à ajouter des marque-pages au menu Signets sans les placer dans des dossiers, vous pouvez constater que vous avez un nombre de signets gazillion indiqué bon gré mal gré et que vous ne vous en souvenez plus ...

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Avec un compte MobileMe actif, iDisk est disponible et vous fournit un espace de stockage supplémentaire. Pour connaître l'espace de stockage utilisé et pour configurer l'accès à votre dossier Public, ouvrez les Préférences Système, cliquez sur l'icône MobileMe, puis sur le bouton iDisk pour afficher les paramètres. Vos paramètres iDisk sont disponibles dans les Préférences Système. Le ...