Table des matières:
- Significatif ne signifie pas toujours important
- La régression n'est pas toujours linéaire
- Extrapoler au-delà d'un exemple de diagramme de dispersion est une mauvaise idée
- Examiner la variabilité autour d'une droite de régression
- Un échantillon peut être trop grand
- Consommateurs: Connaissez vos axes
- Tracer une variable catégorique comme s'il s'agissait d'une variable quantitative est tout simplement faux
- Si nécessaire, incluez la variabilité dans votre graphique
- Soyez prudent lorsque vous reliez des concepts de manuels de statistiques à Excel
Vidéo: Cours Excel #08 - Les graphiques (Partie 1) 2025
Le monde de la statistique est plein d'embûches, mais aussi plein d'opportunités. Que vous soyez un utilisateur de statistiques ou quelqu'un qui doit les interpréter, il est possible de tomber dans les pièges. Il est également possible de marcher autour d'eux. Voici dix conseils et pièges dans les domaines du test d'hypothèse, de la régression, de la corrélation et du graphique.
Significatif ne signifie pas toujours important
La signification est, à bien des égards, un terme mal choisi. Quand un test statistique donne un résultat significatif et que la décision est de rejeter H 0 , cela ne garantit pas que l'étude derrière les données est importante. Les statistiques ne peuvent qu'aider à la prise de décision concernant les nombres et les inférences concernant les processus qui les ont produites. Ils ne peuvent pas rendre ces processus importants ou bouleversants. L'importance est quelque chose que vous devez juger par vous-même - et aucun test statistique ne peut le faire pour vous.
La régression n'est pas toujours linéaire
Lorsque vous essayez d'adapter un modèle de régression à un diagramme de dispersion, la tentation est d'utiliser immédiatement une ligne. C'est le modèle de régression le mieux compris, et quand vous le maîtrisez, les pentes et les interceptions ne sont pas si décourageantes.
Mais la régression linéaire n'est pas le seul type de régression. Il est possible d'ajuster une courbe à travers un nuage de points. Ne vous laissez pas berner: les concepts statistiques qui sous-tendent la régression curviligne sont plus difficiles à comprendre que les concepts qui sous-tendent la régression linéaire.
Il vaut cependant la peine de prendre le temps de maîtriser ces concepts. Parfois, une courbe est un bien meilleur ajustement qu'une ligne.
Extrapoler au-delà d'un exemple de diagramme de dispersion est une mauvaise idée
Que vous utilisiez la régression linéaire ou la régression curvilinéaire, gardez à l'esprit qu'il est inapproprié de généraliser au-delà des limites du diagramme de dispersion.
Supposons que vous ayez établi une solide relation prédictive entre un test d'aptitude mathématique et la performance dans les cours de mathématiques, et que votre diagramme de dispersion ne couvre qu'une gamme étroite d'aptitudes mathématiques. Vous n'avez aucun moyen de savoir si la relation tient au-delà de cette fourchette. Les prédictions en dehors de cette plage ne sont pas valides.
Votre meilleur pari est d'étendre le scatterplot en testant plus de gens. Vous pourriez trouver que la relation d'origine ne raconte qu'une partie de l'histoire.
Examiner la variabilité autour d'une droite de régression
Une analyse minutieuse des résidus (les différences entre les valeurs observées et les valeurs prédites) peut vous renseigner sur l'adéquation de la droite aux données. Une hypothèse de base est que la variabilité autour d'une ligne de régression est la même en haut et en bas de la ligne.Si ce n'est pas le cas, le modèle pourrait ne pas être aussi prédictif que vous le pensez. Si la variabilité est systématique (plus grande variabilité à une extrémité qu'à l'autre), la régression curviligne pourrait être plus appropriée que linéaire. L'erreur-type de l'estimation ne sera pas toujours l'indicateur.
Un échantillon peut être trop grand
Croyez-le ou non, cela arrive parfois avec des coefficients de corrélation. Un très grand échantillon peut rendre un petit coefficient de corrélation statistiquement significatif.
Mais que signifie réellement ce coefficient de corrélation? Le coefficient de détermination -r 2 - est juste. 038, ce qui signifie que la SS Régression est inférieure à 4% de la SS Total . C'est une très petite association.
Bottom line: Lorsque vous regardez un coefficient de corrélation, soyez conscient de la taille de l'échantillon. Si elle est assez grande, elle peut rendre une association triviale statistiquement significative. (Hmmm … signification - c'est encore là!)
Consommateurs: Connaissez vos axes
Lorsque vous regardez un graphique, assurez-vous de savoir ce qu'il y a sur chaque axe. Assurez-vous de bien comprendre les unités de mesure. Comprenez-vous la variable indépendante? Comprenez-vous la variable dépendante? Pouvez-vous décrire chacun dans vos propres mots? Si la réponse à l'une de ces questions est «Non», vous ne comprenez pas le graphique que vous regardez.
Lorsque vous regardez un graphique dans une publicité télévisée, soyez très prudent s'il disparaît trop rapidement, avant de pouvoir voir ce qu'il y a sur les axes. L'annonceur tente peut-être de créer une fausse impression persistante à propos d'une relation bidon dans le graphique. La relation graphique pourrait être aussi valable que cette autre publicité télévisée - preuve scientifique par l'intermédiaire de dessins animés: minuscules brosses animées de nettoyage des dents de dessin animé ne garantit pas nécessairement des dents plus blanches pour vous si vous achetez le produit.
Tracer une variable catégorique comme s'il s'agissait d'une variable quantitative est tout simplement faux
Vous êtes donc sur le point de participer à la série mondiale Rock-Paper-Scissors. En préparation de ce tournoi international, vous avez comptabilisé tous vos matches des dix dernières années, en indiquant le pourcentage de fois que vous avez gagné lorsque vous avez joué chaque rôle.
Pour résumer tous les résultats, utilisez les fonctionnalités graphiques d'Excel pour créer un graphique.
Tant de gens créent ce genre de graphiques - des gens qui devraient savoir mieux. La ligne dans le graphique implique la continuité d'un point à un autre. Avec ces données, bien sûr, c'est impossible. Qu'y a-t-il entre le rock et le papier? Pourquoi sont-ils des unités égales? Pourquoi les trois catégories sont-elles dans cet ordre?
En termes simples, un graphique linéaire n'est pas le bon graphique si au moins une de vos variables est un ensemble de catégories. Au lieu de cela, créez un graphique de colonne. Un graphique circulaire fonctionne également ici, car les données sont des pourcentages et vous n'avez que quelques tranches.
Si nécessaire, incluez la variabilité dans votre graphique
Lorsque les points de votre graphique représentent des moyennes, assurez-vous que le graphique inclut l'erreur type de chaque moyenne.Cela donne au spectateur une idée de la variabilité dans les données - ce qui est un aspect important des données.
Les moyens par eux-mêmes ne vous disent pas toujours toute l'histoire. Saisissez toutes les occasions d'examiner les écarts et les écarts-types. Vous pouvez trouver quelques pépites cachées. Une variation systématique - des valeurs de variance élevées associées à des moyennes importantes, par exemple - pourrait être un indice d'une relation que vous n'aviez pas vue auparavant.
Soyez prudent lorsque vous reliez des concepts de manuels de statistiques à Excel
Si vous voulez vraiment faire du travail statistique, vous aurez probablement l'occasion d'examiner un ou deux textes de statistiques. Gardez à l'esprit que les symboles dans certaines zones de statistiques ne sont pas standard.
La connexion des concepts de manuels aux fonctions statistiques d'Excel peut être un défi à cause des textes et à cause d'Excel. Les messages dans les boîtes de dialogue et dans les fichiers d'aide peuvent contenir des symboles autres que ceux que vous avez lus, ou ils peuvent utiliser les mêmes symboles, mais d'une manière différente. Cet écart peut vous amener à faire une entrée incorrecte dans un paramètre d'une boîte de dialogue, ce qui entraîne une erreur difficile à tracer.
