Vidéo: Tutoriel 03 R - Lire des données au format CSV ou TXT 2025
Avant d'essayer décrire vos données dans R, vous devez vous assurer que vos données sont dans le bon format. Cela signifie
-
S'assurer que toutes vos données sont contenues dans une trame de données (ou dans un vecteur s'il s'agit d'une seule variable)
-
S'assurer que toutes les variables sont du type correct
-
Vérifier que les valeurs sont toutes traitées correctement
Certaines données peuvent avoir un nombre limité de valeurs différentes. Par exemple, les gens peuvent être des hommes ou des femmes, et vous pouvez décrire la plupart des types de cheveux avec seulement quelques couleurs.
Parfois, plus de valeurs sont théoriquement possibles mais pas réalistes. Par exemple, les voitures peuvent avoir plus de 16 cylindres dans leurs moteurs, mais vous n'en trouverez pas beaucoup. D'une manière ou d'une autre, toutes ces données peuvent être considérées comme catégorielles . Par cette définition, les données catégoriques comprennent également des données ordinales.
D'un autre côté, vous disposez de données pouvant contenir un nombre illimité de valeurs possibles. Cela ne signifie pas nécessairement que les valeurs peuvent être n'importe quelle valeur que vous aimez. Par exemple, le kilométrage d'une voiture est exprimé en miles par gallon, souvent arrondi à l'ensemble du mile. Pourtant, la valeur réelle sera légèrement différente pour chaque voiture.
La seule chose qui définit le nombre de valeurs possibles que vous autorisez est la précision avec laquelle vous exprimez les données. Les données pouvant être exprimées avec un niveau de précision choisi sont continues . Les données à l'échelle de l'intervalle et les données à l'échelle du rapport sont généralement des données continues.
La distinction entre données catégoriques et données continues n'est cependant pas toujours claire. L'âge est, par essence, une variable continue, mais il est souvent exprimé en nombre d'années depuis la naissance.
Vous avez encore beaucoup de valeurs possibles si vous faites cela, mais que se passe-t-il si vous regardez l'âge des enfants de votre lycée local? Soudain, vous avez seulement cinq, peut-être six, différentes valeurs dans vos données. À ce stade, vous pouvez tirer le meilleur parti de votre analyse si vous traitez ces données comme catégoriques.
Lors de la description de vos données, vous devez faire la distinction entre les données qui bénéficient de la conversion en facteur et les données qui doivent rester numériques. Si vous pouvez voir vos données comme catégoriques, le convertir en un facteur aide à l'analyser.
