Table des matières:
- Tâche: Collecte des données
- Tâche: Description des données
- Tâche: Exploration des données
- Tâche: Vérification de la qualité des données
Vidéo: 11 - Knowledge Management 2024
Dans la deuxième phase du modèle de processus standard interindustriel pour l'exploration de données (CRISP-DM), vous obtenez des données et vérifiez qu'il est approprié pour vos besoins. Vous pouvez identifier les problèmes qui vous amènent à revenir à la compréhension des affaires et à réviser votre plan. Vous pouvez même découvrir des failles dans la compréhension de votre entreprise, une autre raison de repenser les objectifs et les plans.
La phase de compréhension des données comprend quatre tâches . Ce sont
-
Collecte des données
-
Description des données
-
Exploration des données
-
Vérification de la qualité des données
Tâche: Collecte des données
Vous venez de définir des objectifs et de définir un plan d'exploration de données. Chaque étape du plan dépend d'avoir les bonnes données. Mieux vaut s'assurer que vous avez vraiment ces données!
Un seul livrable existe pour cette tâche: le rapport de collecte de données initial. Dans votre rapport, vous devez vérifier que vous avez acquis les données ou au moins obtenu l'accès aux données, testé le processus d'accès aux données et vérifié que les données existent. Vous devrez également charger des données dans les outils que vous utiliserez pour l'exploration de données afin de vérifier que les outils sont compatibles avec les données.
Vous pouvez faire beaucoup de travail pour assembler les données dont vous avez besoin avant de pouvoir écrire ce rapport. Tout d'abord, vous allez créer votre plan, comme suit:
-
Exigences de données générales: Créez une liste des types de données nécessaires pour répondre aux objectifs d'exploration de données. Développez la liste avec des détails tels que la plage de temps et les formats de données requis.
-
Vérifier la disponibilité des données: Vérifiez que les données requises existent et que vous pouvez les utiliser. Si certaines données que vous souhaitez ne sont pas disponibles, décidez comment vous allez résoudre ce problème. Envisagez des alternatives telles que
-
Remplacement par une autre source de données
-
Réduction de la portée du projet
-
Collecte de nouvelles données
-
-
Définition des critères de sélection: Identification des sources de données spécifiques (bases de données, fichiers, documents, et ainsi de suite.) vous utiliserez. Dans ces sources, spécifiez les tables, les champs et les plages de cas qui sont pertinents pour ce projet.
Une fois ces étapes franchies, vous devez obtenir les données. À ce stade, importez les données dans la plate-forme d'exploration de données que vous utiliserez pour le projet afin de confirmer qu'il est possible de le faire et que vous comprenez le processus. Au cours de cet essai, vous pouvez découvrir des limitations logicielles (ou matérielles) que vous n'aviez pas prévues, telles que
-
Limites sur le nombre de cas ou de champs, ou sur la quantité de mémoire que vous pouvez utiliser
-
Incapacité à lire formats de données de vos sources
-
Difficulté à traiter les imperfections des données (par exemple, vous risquez de rencontrer des produits qui n'importeront ou n'analyseront pas les jeux de données incomplets)
Enfin, résumez le processus de collecte dans un rapport.Le rapport devrait décrire vos besoins et expliquer en détail quelles données vous avez recueillies et de quelles sources. Vous confirmez ici que vous avez effectivement obtenu les données et qu'elles sont compatibles avec votre plate-forme d'exploration de données. Si vous avez eu des difficultés, vous expliquerez ce qu'ils étaient et comment vous les avez abordés (en utilisant d'autres sources, en révisant les plans, en changeant les formats).
Le livrable pour cette tâche n'est qu'un simple rapport, mais le travail que vous devez faire avant de pouvoir écrire ce rapport ne sera pas simple! L'accès aux données peut être l'une des parties les plus difficiles et les plus frustrantes du processus d'exploration de données, avec ses défis techniques et commerciaux.
Tâche: Description des données
Maintenant que vous avez des données, préparez une description générale de ce que vous avez.
Le livrable pour cette tâche est le rapport de description des données. Dans celui-ci, vous décrivez la source et les formats des données, le nombre de cas, le nombre et la description des champs, et toute autre information générale qui peut être importante. Vous effectuez également une brève évaluation de l'adéquation des données à vos objectifs d'exploration de données. Par exemple, vérifiez que les données incluent les zones auxquelles vous vous attendez et devez être présentes et les cas suffisants pour l'analyse.
Tâche: Exploration des données
Dans cette tâche, vous examinez les données de plus près. Pour chaque variable, vous regardez la plage de valeurs et leurs distributions. Vous utiliserez des manipulations de données simples et des techniques statistiques de base pour effectuer d'autres vérifications dans les données. L'exploration de données prend en charge plusieurs objectifs:
-
Familiarisez-vous avec les données.
-
Repérer des signes de problèmes de qualité des données.
-
Définissez la scène pour les étapes de préparation des données.
Le livrable pour cette tâche est le rapport d'exploration de données. C'est l'endroit idéal pour documenter toutes les hypothèses ou conclusions initiales que vous avez développées pendant l'exploration des données. Ce rapport devrait inclure une description plus détaillée des données que le rapport de description des données, y compris les distributions, les résumés et tout signe de problèmes de qualité des données.
Tâche: Vérification de la qualité des données
Vous avez les données et vous les avez examinées, et vous devez maintenant déterminer si elles sont suffisantes pour soutenir vos objectifs. Vous aurez souvent un problème de qualité à résoudre tout en étant capable d'aller de l'avant, mais parfois la qualité des données est si mauvaise qu'elle ne peut pas supporter votre plan et vous devrez chercher des alternatives. Parmi les problèmes de données les plus graves,
-
Les données dont vous avez besoin n'existent pas. (N'a-t-il jamais existé, ou a-t-il été rejeté? Est-ce que ces données peuvent être collectées et sauvegardées pour une utilisation future?)
-
Il existe, mais vous ne pouvez pas l'avoir. (Cette restriction peut-elle être surmontée?)
-
Vous trouvez des problèmes graves de qualité des données (beaucoup de valeurs manquantes ou incorrectes qui ne peuvent pas être corrigées).
Le livrable pour cette tâche est le rapport sur la qualité des données. Cela résume les données que vous avez, les problèmes de qualité mineurs et majeurs que vous avez trouvés, et les remèdes possibles pour les problèmes de qualité ou les alternatives (comme l'utilisation d'une ressource de données alternative).Si vous rencontrez des problèmes de qualité de données vraiment sérieux et que vous ne parvenez pas à identifier une solution adéquate, vous devrez peut-être recommander de revoir les objectifs ou les plans.