Vidéo: Méthodes d'imputation des données manquantes (1 et 2 sur 5) 2024
Lorsque vous analysez des données pour votre infographie, sachez que certains points de données - valeurs aberrantes - sont si loin de la norme attirer l'attention sur eux-mêmes. Dans les cas les plus graves, ils peuvent même fausser les données et créer une image trompeuse du sujet. Vous devez reconnaître quand vous avez une valeur aberrante, puis décider quoi faire à ce sujet.
Ce tableau contient un exemple simple pour illustrer cette idée. Les deux jeux de données représentent les notes d'un étudiant, pendant huit semaines, sur deux examens hebdomadaires; les chiffres sont le pourcentage correct sur l'examen. L'ensemble de données à gauche (le premier examen) ne contient pas de valeur aberrante, mais l'ensemble de données à droite (le deuxième examen) le fait. La valeur aberrante est affichée en gras.
Semaine | Niveaux (pas d'écart) | Niveaux (un écart) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Moyenne > 87% | 83% |
|
Que fait un journaliste de données dans un tel cas? Voici quelques options:
Jetez la valeur aberrante.
-
Si vous n'utilisez que la moyenne de votre graphique et que vous craignez qu'elle soit trompeuse, éliminez la valeur aberrante comme une aberration, puis calculez la moyenne sans cette semaine, comme le montre la figure.
Si vous utilisez cette option, assurez-vous d'ajouter une note expliquant tout: dans ce cas, la suppression d'un point de données. Toujours être aussi transparent que possible.
Afficher les données telles quelles.
-
Que vous utilisiez uniquement la moyenne de votre graphique ou que vous traçiez toutes les données d'un graphique, vous pouvez toujours présenter les données telles qu'elles vous sont présentées, comme illustré dans la figure suivante. Dans ce cas, vous devriez ajouter une note de bas de page qui appelle l'aberration afin que votre lecteur en soit pleinement conscient.
Construire une «ligne de meilleur ajustement. "
-
Cette option ne s'applique que si vous allez créer un graphique montrant toutes les données. Une ligne de meilleur ajustement - appelée aussi régression linéaire - est une moyenne visuelle de vos données: littéralement, la ligne représentant vos données dispersées est la meilleure.