Comment utiliser les diagrammes de quantiles pour vérifier la normalité des données dans R - les typhons

Vidéo: Tutoriel 24 R - Diagramme Quantile Quantile - normalité et comparaison de deux distributions 2025

Les histogrammes laissent beaucoup à l'interprétation du spectateur. Une meilleure manière graphique dans R de dire si vos données sont distribuées normalement est de regarder un soi-disant tracé quantile-quantile (QQ).

Avec cette technique, vous tracez des quantiles les uns par rapport aux autres. Si vous comparez deux échantillons, par exemple, vous comparez simplement les quantiles des deux échantillons. Ou, pour le dire un peu différemment, R fait ce qui suit pour construire un tracé QQ:

Trie les données des deux échantillons.
Il trace ces valeurs triées les unes par rapport aux autres.

Si les deux échantillons ne contiennent pas le même nombre de valeurs, R calcule des valeurs supplémentaires par interpolation pour le plus petit échantillon afin de créer deux échantillons de même taille.

Comment comparer deux échantillons de données

Bien sûr, vous n'avez pas à faire cela tout seul, vous pouvez simplement utiliser la fonction qqplot () pour cela. Donc, pour vérifier si les températures pendant l'activité et pendant le repos sont réparties également, vous faites simplement ce qui suit:

>> qqplot (beaver2 $ temp [beaver2 $ activ == 1], + beaver2 $ temp [beaver2 $ activ == 0])

Ceci crée un graphique où les valeurs ordonnées sont tracées l'un contre l'autre.

Entre les crochets, vous pouvez utiliser un vecteur logique pour sélectionner les cas que vous voulez. Ici vous sélectionnez tous les cas où la variable activ est égale à 1 pour le premier échantillon, et tous les cas où cette variable est égale à 0 pour le second échantillon.

Comment utiliser un graphique R QQ pour vérifier la normalité des données

Dans la plupart des cas, vous ne voulez pas comparer deux échantillons entre eux, mais comparez un échantillon avec un échantillon théorique qui provient d'une certaine distribution (par exemple, la distribution normale).

Pour créer un graphe QQ de cette façon, R possède la fonction spéciale qqnorm (). Comme son nom l'indique, cette fonction trace votre échantillon par rapport à une distribution normale. Vous donnez simplement l'échantillon que vous voulez tracer comme premier argument et ajoutez les paramètres graphiques que vous aimez.

R crée alors un échantillon avec des valeurs provenant de la distribution normale

standard , ou une distribution normale avec une moyenne de zéro et un écart-type de un. Avec ce second échantillon, R crée le tracé QQ comme expliqué précédemment. R a aussi une fonction qqline (), qui ajoute une ligne à votre tracé QQ normal. Cette ligne permet d'évaluer plus facilement si vous voyez un écart clair par rapport à la normalité. Plus tous les points sont proches de la ligne, plus la distribution de votre échantillon se rapproche de la distribution normale. La fonction qqline () prend également l'exemple en argument.

Vous voulez maintenant faire cela pour les températures pendant la période active et inactive du castor. Vous pouvez utiliser la fonction qqnorm () deux fois pour créer les deux tracés. Pour les périodes inactives, vous pouvez utiliser le code suivant: >> qqnorm (beaver2 $ temp [beaver2 $ activ == 0], main = "Inactif")> qqline (beaver2 $ temp [beaver2 $ activ == 0]

Vous pouvez faire la même chose pour la période active en changeant la valeur 0 à 1.