Table des matières:
- Comment obtenir la sortie
- Avez-vous vu les valeurs étranges de la variable cyl? Un rapide coup d'œil sur le résumé peut vous dire qu'il y a quelque chose de louche, comme, par exemple, le minimum et le premier quartile ont exactement la même valeur. En fait, la variable cyl n'a que trois valeurs et serait meilleure comme facteur. Alors, mettons cette variable hors de sa misère: >> voitures $ cyl <- as. facteur (voitures $ cyl)
Vidéo: Cours d'ACM (Partie 4/4 : aides à l'interprétation, représentation de variables supllémentaires) 2025
Si vous avez besoin d'un aperçu rapide de votre dataset, vous pouvez bien sûr toujours utiliser la commande R str () et regardez la structure. Mais cela vous dit quelque chose seulement sur les classes de vos variables et le nombre d'observations. En outre, la fonction head () vous donne, au mieux, une idée de la façon dont les données sont stockées dans l'ensemble de données.
Comment obtenir la sortie
Pour avoir une meilleure idée de la distribution de vos variables dans l'ensemble de données, vous pouvez utiliser la fonction summary () comme ceci:
La fonction summary () fonctionne mieux si vous utilisez simplement R interactivement sur la ligne de commande pour analyser votre jeu de données rapidement. Vous ne devriez pas essayer de l'utiliser dans une fonction personnalisée que vous avez écrite vous-même.
Variables numériques:
-
summary () vous donne la plage, les quartiles, la médiane et la moyenne. Variables factorielles:
-
summary () vous donne un tableau avec des fréquences. Variables numériques et factorielles:
-
summary () vous donne le nombre de valeurs manquantes, s'il y en a.
-
summary () ne vous donne aucune information en dehors de la longueur et de la classe (qui est 'character'). Comment réparer un problème
Avez-vous vu les valeurs étranges de la variable cyl? Un rapide coup d'œil sur le résumé peut vous dire qu'il y a quelque chose de louche, comme, par exemple, le minimum et le premier quartile ont exactement la même valeur. En fait, la variable cyl n'a que trois valeurs et serait meilleure comme facteur. Alors, mettons cette variable hors de sa misère: >> voitures $ cyl
