Table des matières:
- Se concentrer sur l'exploration de données
- Comprendre comment les mineurs de données passent leur temps
- Connaître le processus d'exploration de données
- Création de modèles
- Comprendre les modèles mathématiques
- Transformer l'information en action
Vidéo: COMMENT DEVENIR DATA SCIENTIST ou data analyst : métier, formation, salaire et Big Data ! 2024
Si vous considérez les données comme des matières premières et que les informations que vous pouvez obtenir des données sont utiles et relativement raffinées, le processus d'extraction des informations peut être comparé à l'extraction du métal du minerai ou des gemmes de la saleté. C'est ainsi que le terme data mining est apparu.
Se concentrer sur l'exploration de données
Les data miners ne se contentent pas de réfléchir aux données sans but, dans l'espoir de trouver quelque chose d'intéressant. Chaque projet d'exploration de données commence par un problème métier spécifique et un objectif à atteindre.
En tant que gestionnaire de données, vous n'aurez probablement pas le pouvoir de prendre les décisions d'affaires finales. Il est donc important que vous adaptiez votre travail aux besoins des décideurs. Vous devez comprendre leurs problèmes, besoins et préférences, et concentrer vos efforts sur la fourniture d'informations qui prennent en charge de bonnes décisions commerciales.
Votre propre connaissance des affaires est très importante. Les cadres ne vont pas s'asseoir à côté de vous pendant que vous travaillez, fournissant des commentaires sur la pertinence de vos découvertes à leurs préoccupations. Vous devez utiliser votre propre expérience et votre perspicacité pour juger de cela par vous-même pendant que vous travaillez.
Comprendre comment les mineurs de données passent leur temps
Ce serait formidable si les chercheurs de données pouvaient passer toute la journée à faire des découvertes, à construire de précieux modèles et à les intégrer dans leurs activités quotidiennes. Mais c'est comme dire que ce serait génial si les athlètes pouvaient passer toute la journée à gagner des tournois. Il faut beaucoup de préparation pour construire ces moments de triomphe. Ainsi, comme les athlètes, les mineurs de données passent beaucoup de temps à se préparer.
Connaître le processus d'exploration de données
Un bon processus de travail vous aide à tirer le meilleur parti de votre temps, de vos données et de toutes vos autres ressources. Dans ce livre, vous découvrirez le processus d'exploration de données le plus populaire, CRISP-DM. Il s'agit d'un cycle de découverte et d'action en six phases créé par un consortium de chercheurs de données provenant de nombreuses industries, et d'une norme ouverte que tout le monde peut utiliser.
Les phases du processus CRISP-DM sont
-
Compréhension commerciale
-
Compréhension des données
-
Préparation des données
-
Modélisation
-
Évaluation
-
Déploiement (utilisation de modèles dans les affaires courantes)
Chaque phase porte un poids égal en importance à la qualité des résultats et de la valeur pour l'entreprise. Mais en termes de temps requis, la préparation des données domine. La préparation des données prend habituellement plus de temps que toutes les autres phases du processus d'exploration de données combinées.
Création de modèles
Lorsque les objectifs sont compris et que les données sont nettoyées et prêtes à l'emploi, vous pouvez vous intéresser à la création de modèles prédictifs.Les modèles font ce que les rapports ne peuvent pas faire. ils vous donnent des informations qui soutiennent l'action.
Un rapport peut vous indiquer que les ventes sont en baisse. Il peut réduire les ventes par région, par produit et par canal afin que vous sachiez où les ventes ont diminué et si ces baisses ont été généralisées ou n'ont affecté que certaines zones. Mais ils ne vous donnent aucune indication sur pourquoi ventes ont diminué ou quelles actions pourraient aider à relancer l'entreprise.
Les modèles vous aident à comprendre les facteurs qui influent sur les ventes, les actions qui ont tendance à augmenter ou à diminuer les ventes, et les stratégies et tactiques qui permettent à votre entreprise de fonctionner correctement. C'est excitant, n'est-ce pas? C'est peut-être pourquoi la plupart des mineurs de données considèrent la modélisation comme la partie la plus amusante du travail.
Comprendre les modèles mathématiques
Les modèles mathématiques sont essentiels à l'exploration de données, mais de quoi s'agit-il? Que font-ils, comment fonctionnent-ils et comment sont-ils créés?
Un modèle mathématique est, simplement et simplement, une équation ou un ensemble d'équations décrivant une relation entre deux ou plusieurs choses. De telles équations sont des raccourcis pour les théories sur le fonctionnement de la nature et de la société. La théorie peut être appuyée par un ensemble de preuves substantielles ou peut-être juste une conjecture sauvage. Le langage des mathématiques est le même dans les deux cas.
Des termes tels que modèle prédictif, modèle statistique, ou modèle linéaire renvoient à des types spécifiques de modèles mathématiques, les noms reflétant l'utilisation prévue, la forme ou la méthode de dérivation un modèle particulier. Ces trois exemples ne sont que quelques-uns de ces termes.
Lorsqu'un modèle est mentionné dans un contexte professionnel, il s'agit très probablement d'un modèle utilisé pour faire des prédictions. Les modèles sont utilisés pour prévoir les prix des actions, les ventes de produits et les taux de chômage, entre autres choses.
Ces prédictions peuvent être précises ou non, mais pour tout ensemble de valeurs (les facteurs connus comme variables indépendantes ou entrées ) sont inclus dans le modèle. trouver une prédiction bien définie (également appelée une variable dépendante , sortie, ou résultat ). Les modèles mathématiques sont utilisés à d'autres fins dans le monde des affaires, par exemple pour décrire les mécanismes de travail qui dirigent un processus particulier.
Dans l'exploration de données, vous créez des modèles en recherchant des modèles dans des données à l'aide d'apprentissage automatique ou de méthodes statistiques. Les chercheurs de données ne suivent pas la même approche rigoureuse que les statisticiens classiques, mais tous les modèles sont dérivés de données réelles et de techniques de modélisation mathématique cohérentes. Tous les modèles d'exploration de données sont supportés par un ensemble de preuves.
Pourquoi utiliser des modèles mathématiques? Les mêmes relations ne pourraient-elles pas être décrites en utilisant des mots? C'est possible, mais vous trouvez certains avantages à l'utilisation d'équations. Ceux-ci incluent
-
Commodité: Comparées aux descriptions équivalentes écrites dans des phrases, les équations sont brèves. Le symbolisme mathématique a évolué spécifiquement dans le but de représenter les relations mathématiques; les langues comme l'anglais ne l'ont pas.
-
Clarté: Les équations transmettent succinctement les idées et sont sans ambiguïté.Ils ne sont pas soumis à des interprétations différentes basées sur la culture, et le symbolisme des mathématiques est une sorte de langage commun utilisé largement à travers le monde.
-
Cohérence: Comme les représentations mathématiques sont sans ambiguïté, les implications d'une situation particulière sont clairement définies par un modèle mathématique.
Transformer l'information en action
Un modèle ne fournit de la valeur que lorsque vous l'utilisez dans l'entreprise. Les prédictions d'un modèle pourraient soutenir la prise de décision de diverses manières. Vous pouvez
-
incorporer des prédictions dans un rapport ou une présentation à utiliser pour prendre une décision spécifique.
-
Intégrez le modèle dans un système opérationnel (tel qu'un système de service client) pour fournir des prévisions en temps réel pour un usage quotidien. (Par exemple, vous pouvez signaler les réclamations d'assurance pour un paiement immédiat, un refus immédiat ou une enquête plus approfondie.)
-
Utilisez le modèle pour les prédictions de lots. (Par exemple, vous pouvez marquer la liste des clients internes pour décider quels clients doivent recevoir une offre particulière.)