Vidéo: Billes de Sciences #5 : Jérôme Rosinski - Esprit scientifique, Esprit critique 2024
L'exploration de données se fait par essais et erreurs, et donc, pour les mineurs de données, il est naturel de faire des erreurs. Les erreurs peuvent être utiles, en d'autres termes, au moins dans certaines conditions. Cependant, toutes les erreurs ne sont pas égales. Certains sont juste mieux évités. La liste suivante propose dix telles erreurs. Si vous les lisez attentivement et que vous les mémorisez, vous éviterez peut-être quelques difficultés dans la courbe d'apprentissage:
-
Ignorer les contrôles de qualité des données: La plupart des mineurs de données pensent que le développement de modèles prédictifs est plus amusant que l'examen des données pour des problèmes de qualité. Mais si vous ne parvenez pas à détecter et à corriger les problèmes de qualité des données, vous pourriez vous retrouver avec des prédictions sans valeur.
-
Manquer le point: Vous avez découvert quelque chose de fascinant! C'est bien, mais si ce n'est pas aussi pertinent pour le problème commercial que vous essayez de résoudre, eh bien, ce n'est pas du tout pertinent. Revenez sur la bonne voie.
-
Croire qu'un modèle dans les données prouve une relation de cause à effet: Vous explorez un ensemble de données et remarquez que lorsque la variable A augmente, la variable B augmente également. Cela peut se produire parce que la variable A influence la variable B, ou parce que la variable B influence la variable A. D'un autre côté, il se peut que les deux soient influencés par une autre variable que vous n'avez pas prise en compte. Ou ce pourrait être une coïncidence unique. Qui peut dire?
-
Étirer les conclusions trop loin: Ne présumez pas que les relations que vous observez dans les données se reproduiront dans des circonstances différentes. Si vos données ont été collectées dans un environnement frais, ne supposez pas que les choses fonctionneront de la même manière dans un environnement d'usine chaud.
-
Parier sur des résultats qui n'ont pas de sens: Les méthodes d'exploration de données sont informelles et ne sont généralement pas soutenues par des méthodes et des théories scientifiques. Vos résultats ont donc au moins un sens commercial. S'il n'y a pas d'explication de bon sens pour les résultats que vous présentez, votre direction ne le prendra probablement pas au sérieux, et ils ne devraient pas le prendre au sérieux.
-
Tomber amoureux d'une méthode de modélisation particulière: Il n'existe pas un seul type de modèle de data mining adapté à chaque situation.
-
Mise en production d'un modèle sans tests adéquats: Ne pariez pas votre entreprise sur un modèle prédictif tant que vous ne l'avez pas testé avec des données de rétention et à petite échelle sur le terrain.
-
Ignorer les résultats que vous n'aimez pas: Si vous ignorez vos données maintenant, elles reviendront un jour et diront: «Je vous l'avais dit. "
-
Utiliser l'exploration de données pour répondre à tous les besoins d'analyse de données: L'exploration de données a une valeur considérable, mais certaines applications nécessitent encore des méthodes de collecte de données rigoureuses, une analyse statistique formelle et une méthode scientifique.
-
En supposant que les techniques traditionnelles d'analyse de données n'ont plus d'importance: Reportez-vous à la puce précédente.