Comment utiliser Fréquences ou Densités avec vos données dans R - variables

Vidéo: Tutoriel 10 R - Histogramme fréquence et densité avec R 2025

En divisant vos données par intervalles dans R, vous perdez encore quelques informations. Cependant, la façon la plus complète de décrire vos données est d'estimer la densité de probabilité (PDF) ou densité de votre variable.

Si ce concept ne vous est pas familier, ne vous inquiétez pas. N'oubliez pas que la densité est proportionnelle à la probabilité que toute valeur de vos données soit approximativement égale à cette valeur. En effet, pour un histogramme, la densité est calculée à partir des comptages, donc la seule différence entre un histogramme à fréquences et une avec densités est l'échelle de l'axe y . Pour le reste, ils ont exactement la même apparence.

Comment créer un diagramme de densité

Vous pouvez estimer la fonction de densité d'une variable à l'aide de la fonction density (). La sortie de cette fonction elle-même ne vous dit pas grand-chose, mais vous pouvez facilement l'utiliser dans un complot. Par exemple, vous pouvez obtenir la densité de la variable de kilométrage mpg comme ceci: >> mpgdens <- densité (voitures $ mpg)

L'objet que vous obtenez de cette façon est une liste contenant beaucoup d'informations que vous n'avez pas vraiment besoin de regarder. Mais cette liste rend le calcul de la densité aussi facile que de dire «tracer la densité»:

plot (mpgdens)

L'intrigue semble un peu rude sur les bords, mais l'important est de voir comment vos données sortent. L'objet densité est représenté sous la forme d'une ligne, avec les valeurs réelles de vos données sur l'axe

x et la densité sur l'axe y . L'objet liste mpgdens contient, entre autres, un élément appelé x et un élément appelé y. Ceux-ci représentent les coordonnées

x - et y pour tracer la densité. Lorsque R calcule la densité, la fonction density () divise vos données en plusieurs petits intervalles et calcule la densité du milieu de chaque intervalle. Ces points médians sont les valeurs de x et les densités calculées sont les valeurs de y.

Comment tracer les densités dans un histogramme

Rappelez-vous que la fonction hist () renvoie les nombres pour chaque intervalle. Maintenant, la probabilité qu'une valeur se situe dans un certain intervalle est directement proportionnelle aux comptages. Plus vous avez de valeurs dans un certain intervalle, plus grande est la probabilité que toute valeur que vous avez choisie se trouve dans cet intervalle.

Ainsi, au lieu de tracer les comptages dans l'histogramme, vous pouvez tout aussi bien tracer les densités. R fait tous les calculs pour vous - la seule chose que vous devez faire est de mettre l'argument freq de hist () à FALSE, comme ceci:

hist (cars $ mpg, col = "gray", freq = FALSE)

Maintenant, l'intrigue sera exactement la même qu'avant; seules les valeurs sur l'axe

y sont différentes.L'échelle sur l'axe y est définie de telle sorte que vous pouvez ajouter le diagramme de densité sur l'histogramme. Pour cela, vous utilisez la fonction lines () avec l'objet density comme argument. Vous pouvez, par exemple, ajouter un peu plus loin à l'histogramme précédent en ajoutant la densité estimée en utilisant le code suivant immédiatement après la commande précédente: >> lignes (mpgdens)

Vous voyez le résultat de ces deux commandes sur le côté droit. Rappelez-vous que lines () utilise les éléments x et y de l'objet densité mpgdens pour tracer la ligne.