Traitement des valeurs de données manquantes dans R - variables

Vidéo: Gestion des valeurs manquantes 2025

La fonction cor () dans R peut traiter les valeurs de données manquantes de plusieurs façons. Pour cela, vous définissez l'argument use sur l'une des valeurs de texte possibles. La valeur de l'argument use est particulièrement importante si vous calculez les corrélations des variables dans une trame de données. En définissant cet argument sur des valeurs différentes, vous pouvez

utiliser toutes les observations en définissant use = 'everything' . Cela signifie que s'il y a une valeur NA dans l'une des variables, la corrélation résultante est également NA. C'est la valeur par défaut.
Exclure toutes les observations ayant NA pour au moins une variable. Pour cela, vous définissez use = 'complete. obs '. Notez que cela ne vous laissera que quelques observations si les valeurs manquantes sont réparties dans l'ensemble de données complet.
Excluez les observations avec des valeurs NA pour chaque paire de variables que vous examinez. Pour cela, vous définissez l'argument use = 'pairwise'. Cela garantit que vous pouvez calculer la corrélation pour chaque paire de variables sans perdre d'informations en raison des valeurs manquantes dans les autres variables.

En fait, vous pouvez calculer différentes mesures de corrélation. Par défaut, R calcule le coefficient de corrélation de Pearson standard. Pour les données qui ne sont pas distribuées normalement, vous pouvez utiliser la fonction cor () pour calculer la corrélation de rang de Spearman, ou tau de Kendall. Pour cela, vous devez définir l'argument de la méthode sur la valeur appropriée.