Vidéo: Atelier R - Analyse de Données / Partie 1 (sur 2) 2024
Pour exécuter une analyse prédictive, vous devez placer les données dans un formulaire que l'algorithme peut utiliser pour créer un modèle. Pour ce faire, vous devez prendre le temps de comprendre les données et de connaître sa structure. Tapez la fonction pour connaître la structure des données. Voici à quoi cela ressemble: >> str (seeds) 'data. frame ': 210 obs. de 8 variables: $ V1: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ V2: num 14. 8 14. 6 14. 1 13. 9 15 … $ V3: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ V4: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ V5: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ V6: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ V7: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ V8: int 1 1 1 1 1 1 1 1 1 1 …
En regardant la structure, vous pouvez dire que les données ont besoin d'une étape de pré-traitement et d'une étape pratique:
-
Ceci n'est pas strictement nécessaire, mais pour les besoins de cet exemple, il est plus pratique d'utiliser des noms de colonnes que vous pouvez comprendre et mémoriser. Modifiez l'attribut avec des valeurs catégorielles en un facteur.
-
L'étiquette a trois catégories possibles. Pour renommer les colonnes, tapez le code suivant: >> colnames (graines) <-
c ("zone", "périmètre", "compacité", "longueur", "largeur", " asymmetry "," length2 "," seedType ")
Ensuite, changez l'attribut qui a des valeurs catégorielles en un facteur. Le code suivant modifie le type de données à un facteur:
>> seeds $ seedType <- factor (seed $ seedType)
Cette commande termine la préparation des données pour le processus de modélisation. Voici une vue de la structure après le processus de préparation des données: >> str (weeds) 'data. frame ': 210 obs. de 8 variables: $ area: num 15. 3 14. 9 14. 3 13. 8 16. 1 … $ périmètre: num 14. 8 14. 6 14. 1 13. 9 15 … $ compacité: num 0. 871 0 881 0. 905 0. 895 0. 903 … $ longueur: num 5. 76 5. 55 5. 29 5. 32 5. 66 … $ largeur: num 3. 31 3. 33 3. 34 3. 38 3. 56 … $ asymétrie: num 2. 22 1. 02 2. 7 2. 26 1. 35 … $ longueur2: num 5. 22 4. 96 4. 83 4. 8 5. 17 … $ seedType: Facteur avec 3 niveaux "1", "2", "3": 1 1 1 1 1 1 1 1 1 …