Accueil Finances personnelles Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Table des matières:

Vidéo: 11 - Knowledge Management 2025

Vidéo: 11 - Knowledge Management 2025
Anonim

Dans la deuxième phase du modèle de processus standard interindustriel pour l'exploration de données (CRISP-DM), vous obtenez des données et vérifiez qu'il est approprié pour vos besoins. Vous pouvez identifier les problèmes qui vous amènent à revenir à la compréhension des affaires et à réviser votre plan. Vous pouvez même découvrir des failles dans la compréhension de votre entreprise, une autre raison de repenser les objectifs et les plans.

La phase de compréhension des données comprend quatre tâches . Ce sont

  • Collecte des données

  • Description des données

  • Exploration des données

  • Vérification de la qualité des données

Tâche: Collecte des données

Vous venez de définir des objectifs et de définir un plan d'exploration de données. Chaque étape du plan dépend d'avoir les bonnes données. Mieux vaut s'assurer que vous avez vraiment ces données!

Un seul livrable existe pour cette tâche: le rapport de collecte de données initial. Dans votre rapport, vous devez vérifier que vous avez acquis les données ou au moins obtenu l'accès aux données, testé le processus d'accès aux données et vérifié que les données existent. Vous devrez également charger des données dans les outils que vous utiliserez pour l'exploration de données afin de vérifier que les outils sont compatibles avec les données.

Vous pouvez faire beaucoup de travail pour assembler les données dont vous avez besoin avant de pouvoir écrire ce rapport. Tout d'abord, vous allez créer votre plan, comme suit:

  • Exigences de données générales: Créez une liste des types de données nécessaires pour répondre aux objectifs d'exploration de données. Développez la liste avec des détails tels que la plage de temps et les formats de données requis.

  • Vérifier la disponibilité des données: Vérifiez que les données requises existent et que vous pouvez les utiliser. Si certaines données que vous souhaitez ne sont pas disponibles, décidez comment vous allez résoudre ce problème. Envisagez des alternatives telles que

    • Remplacement par une autre source de données

    • Réduction de la portée du projet

    • Collecte de nouvelles données

  • Définition des critères de sélection: Identification des sources de données spécifiques (bases de données, fichiers, documents, et ainsi de suite.) vous utiliserez. Dans ces sources, spécifiez les tables, les champs et les plages de cas qui sont pertinents pour ce projet.

Une fois ces étapes franchies, vous devez obtenir les données. À ce stade, importez les données dans la plate-forme d'exploration de données que vous utiliserez pour le projet afin de confirmer qu'il est possible de le faire et que vous comprenez le processus. Au cours de cet essai, vous pouvez découvrir des limitations logicielles (ou matérielles) que vous n'aviez pas prévues, telles que

  • Limites sur le nombre de cas ou de champs, ou sur la quantité de mémoire que vous pouvez utiliser

  • Incapacité à lire formats de données de vos sources

  • Difficulté à traiter les imperfections des données (par exemple, vous risquez de rencontrer des produits qui n'importeront ou n'analyseront pas les jeux de données incomplets)

Enfin, résumez le processus de collecte dans un rapport.Le rapport devrait décrire vos besoins et expliquer en détail quelles données vous avez recueillies et de quelles sources. Vous confirmez ici que vous avez effectivement obtenu les données et qu'elles sont compatibles avec votre plate-forme d'exploration de données. Si vous avez eu des difficultés, vous expliquerez ce qu'ils étaient et comment vous les avez abordés (en utilisant d'autres sources, en révisant les plans, en changeant les formats).

Le livrable pour cette tâche n'est qu'un simple rapport, mais le travail que vous devez faire avant de pouvoir écrire ce rapport ne sera pas simple! L'accès aux données peut être l'une des parties les plus difficiles et les plus frustrantes du processus d'exploration de données, avec ses défis techniques et commerciaux.

Tâche: Description des données

Maintenant que vous avez des données, préparez une description générale de ce que vous avez.

Le livrable pour cette tâche est le rapport de description des données. Dans celui-ci, vous décrivez la source et les formats des données, le nombre de cas, le nombre et la description des champs, et toute autre information générale qui peut être importante. Vous effectuez également une brève évaluation de l'adéquation des données à vos objectifs d'exploration de données. Par exemple, vérifiez que les données incluent les zones auxquelles vous vous attendez et devez être présentes et les cas suffisants pour l'analyse.

Tâche: Exploration des données

Dans cette tâche, vous examinez les données de plus près. Pour chaque variable, vous regardez la plage de valeurs et leurs distributions. Vous utiliserez des manipulations de données simples et des techniques statistiques de base pour effectuer d'autres vérifications dans les données. L'exploration de données prend en charge plusieurs objectifs:

  • Familiarisez-vous avec les données.

  • Repérer des signes de problèmes de qualité des données.

  • Définissez la scène pour les étapes de préparation des données.

Le livrable pour cette tâche est le rapport d'exploration de données. C'est l'endroit idéal pour documenter toutes les hypothèses ou conclusions initiales que vous avez développées pendant l'exploration des données. Ce rapport devrait inclure une description plus détaillée des données que le rapport de description des données, y compris les distributions, les résumés et tout signe de problèmes de qualité des données.

Tâche: Vérification de la qualité des données

Vous avez les données et vous les avez examinées, et vous devez maintenant déterminer si elles sont suffisantes pour soutenir vos objectifs. Vous aurez souvent un problème de qualité à résoudre tout en étant capable d'aller de l'avant, mais parfois la qualité des données est si mauvaise qu'elle ne peut pas supporter votre plan et vous devrez chercher des alternatives. Parmi les problèmes de données les plus graves,

  • Les données dont vous avez besoin n'existent pas. (N'a-t-il jamais existé, ou a-t-il été rejeté? Est-ce que ces données peuvent être collectées et sauvegardées pour une utilisation future?)

  • Il existe, mais vous ne pouvez pas l'avoir. (Cette restriction peut-elle être surmontée?)

  • Vous trouvez des problèmes graves de qualité des données (beaucoup de valeurs manquantes ou incorrectes qui ne peuvent pas être corrigées).

Le livrable pour cette tâche est le rapport sur la qualité des données. Cela résume les données que vous avez, les problèmes de qualité mineurs et majeurs que vous avez trouvés, et les remèdes possibles pour les problèmes de qualité ou les alternatives (comme l'utilisation d'une ressource de données alternative).Si vous rencontrez des problèmes de qualité de données vraiment sérieux et que vous ne parvenez pas à identifier une solution adéquate, vous devrez peut-être recommander de revoir les objectifs ou les plans.

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Le choix des éditeurs

: Utilisation de l'équation du cercle standard - dummies

: Utilisation de l'équation du cercle standard - dummies

Si vous avez une question SAT Examen de mathématiques qui vous donne l'équation d'un cercle, vous aurez probablement besoin de convertir cette équation à l'équation du cercle standard. Les questions pratiques suivantes vous donnent l'équation d'un cercle et vous demandent de trouver son rayon et son centre. Questions d'entraînement Questions 1 et ...

SAT Pratique Mathématiques Questions: Séquences arithmétiques et géométriques - mannequins

SAT Pratique Mathématiques Questions: Séquences arithmétiques et géométriques - mannequins

Mathématiques implique parfois de reconnaître des schémas et de voir où ces modèles mènent. Le SAT vous demande parfois de jouer au mathématicien avec deux types de motifs: arithmétique et géométrique. Le mot mathématique pour le motif, en passant, est la séquence. Découvrez cette séquence arithmétique: 2, 5, 8, 11, 14 ... Notez que chaque nombre est ...

SAT Exercice de maths-FOIL Operations - mannequins

SAT Exercice de maths-FOIL Operations - mannequins

L'examen de mathématiques SAT vous posera quelques questions Vous devez savoir comment exécuter une opération FOIL, où vous multipliez un polynôme dans l'ordre: Premier, Extérieur, Intérieur et Dernier. Les questions de pratique suivantes vous demandent de trouver le produit de deux binômes et la valeur d'une variable en utilisant ...

Le choix des éditeurs

Prier le Rosaire et méditer sur les Mystères - mannequins

Prier le Rosaire et méditer sur les Mystères - mannequins

Selon la pieuse tradition catholique, au 13ème siècle Marie, la Mère de Dieu, est apparue à saint Dominique de Guzman, lui a donné un chapelet et a demandé qu'au lieu de prier les Psaumes sur des perles ou des noeuds, les fidèles prient l'Ave Maria, Notre Père et la Gloire soit. Quinze décennies ont constitué l'origine dominicaine ...

Dix choses à savoir sur le pape Benoît XVI - Paroisse

Dix choses à savoir sur le pape Benoît XVI - Paroisse

Le pape Benoît XVI a été élu en 2007 par le Collège des Cardinaux, et il a démissionné en 2012. Les controverses faisaient partie de son mandat. Il était le 265e pape de l'histoire de l'Église catholique romaine et le premier à démissionner en près de 600 ans.

La Réforme et l'Église Catholique - mannequins

La Réforme et l'Église Catholique - mannequins

Au Moyen Âge, la philosophie grecque (incarnée par Platon et Aristote ) a été utilisé pour aider à développer un chrétien, qui est devenu partenaire de la théologie sacrée. La langue latine était connue et utilisée - principalement dans des contextes religieux et juridiques. Les arts libéraux et les sciences religieuses ont été les principaux piliers de l'éducation universitaire et de la chrétienté ...

Le choix des éditeurs

Comment fonctionne BPaaS dans le monde réel du Cloud Computing - les nuls

Comment fonctionne BPaaS dans le monde réel du Cloud Computing - les nuls

Si vous avez décidé de utiliser BPaaS (Business Process as a Service) dans un modèle de cloud hybride en tant que plate-forme de prestation de services, vous devez comprendre comment combiner des services en fonction des processus que vous souhaitez exécuter. Comme le montre la figure suivante, un service de processus métier peut être lié à divers ...

Développer un environnement Cloud hybride sécurisé - des mannequins

Développer un environnement Cloud hybride sécurisé - des mannequins

Une approche réfléchie de la sécurité peut réussir à atténuer de nombreux risques de sécurité dans un environnement de cloud hybride. Pour développer un environnement hybride sécurisé, vous devez évaluer l'état actuel de votre stratégie de sécurité ainsi que la stratégie de sécurité proposée par votre fournisseur de cloud. Évaluer votre état actuel de sécurité Dans un environnement hybride, la sécurité ...

Gestion des charges de travail dans un modèle de cloud hybride - mannequins

Gestion des charges de travail dans un modèle de cloud hybride - mannequins

Modèle de nuage. La gestion, dans ce contexte, fait référence à la manière dont les ressources sont affectées pour traiter les charges de travail. Les affectations peuvent être basées sur la disponibilité des ressources, les priorités métier ou la planification d'événements. Dans l'ère de l'informatique mainframe unifiée, la gestion de la charge de travail était assez simple. Quand une tâche ...