Vidéo: Cours de classification 2025
Vous avez l'ensemble de données et vous l'avez formaté selon vos besoins en R, alors maintenant vous êtes prêt pour le vrai travail. L'analyse de vos données commence toujours par la décrire. De cette façon, vous pouvez détecter les erreurs dans les données, et vous pouvez décider quels modèles sont appropriés pour obtenir les informations dont vous avez besoin à partir des données que vous avez.
Les statistiques descriptives que vous utilisez dépendent de la nature de vos données, bien sûr.
Parfois, vous êtes plus intéressé par l'image générale de vos données que par les valeurs individuelles. Vous pourriez ne pas être intéressé par le kilométrage de chaque voiture, mais par le kilométrage moyen de toutes les voitures de cet ensemble de données. Pour cela, vous calculez la moyenne en utilisant la fonction mean (), comme ceci: >> mean (voitures $ mpg) [1] 20. 09062
Vous pouvez également calculer le nombre moyen de cylindres que ces voitures ont, mais cela n'a pas vraiment de sens. La moyenne serait 6. 1875 cylindres, et aucune voiture ne roule avec un cylindre incomplet. Dans ce cas, la
médiane - la valeur la plus centrale de vos données - a plus de sens. Vous obtenez la médiane en utilisant la fonction median (), comme ceci:
