Vidéo: Atelier R - Analyse de Données / Partie 1 (sur 2) 2024
L'ensemble de données que nous analysons pour faire une prédiction est le jeu de données Seeds, qui peut être trouvé dans le référentiel d'apprentissage automatique UCI. Ce jeu de données a 210 observations et 7 attributs plus l'étiquette. L'étiquette est le résultat attendu et est utilisée pour former et évaluer l'exactitude du modèle prédictif.
Le résultat que vous essayez de prédire est le type de graine (attribut 8), étant donné les valeurs des sept attributs. Les trois valeurs possibles pour le type de graine sont étiquetées 1, 2 et 3 et représentent les variétés de blé Kama, Rosa et canadiennes.
Les attributs dans l'ordre des colonnes sont fournis:
-
zone
-
périmètre
-
compacité
-
longueur du noyau
-
largeur du noyau
-
coefficient d'asymétrie > longueur du groove du noyau
-
classe du blé
-
Pour récupérer l'ensemble de données du référentiel UCI et le charger en mémoire, tapez la commande suivante dans la console:
Vous voyez que l'ensemble de données a été chargé en mémoire en tant que variable de trame de donnéesgraines,
en regardant votre panneau d'espace de travail (en haut à droite) Cliquez sur la variable semences pour voir les valeurs de données volet (en haut à gauche) Voici comment les données apparaissent dans le volet source