Accueil Finances personnelles Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Table des matières:

Vidéo: 11 - Knowledge Management 2025

Vidéo: 11 - Knowledge Management 2025
Anonim

Dans la deuxième phase du modèle de processus standard interindustriel pour l'exploration de données (CRISP-DM), vous obtenez des données et vérifiez qu'il est approprié pour vos besoins. Vous pouvez identifier les problèmes qui vous amènent à revenir à la compréhension des affaires et à réviser votre plan. Vous pouvez même découvrir des failles dans la compréhension de votre entreprise, une autre raison de repenser les objectifs et les plans.

La phase de compréhension des données comprend quatre tâches . Ce sont

  • Collecte des données

  • Description des données

  • Exploration des données

  • Vérification de la qualité des données

Tâche: Collecte des données

Vous venez de définir des objectifs et de définir un plan d'exploration de données. Chaque étape du plan dépend d'avoir les bonnes données. Mieux vaut s'assurer que vous avez vraiment ces données!

Un seul livrable existe pour cette tâche: le rapport de collecte de données initial. Dans votre rapport, vous devez vérifier que vous avez acquis les données ou au moins obtenu l'accès aux données, testé le processus d'accès aux données et vérifié que les données existent. Vous devrez également charger des données dans les outils que vous utiliserez pour l'exploration de données afin de vérifier que les outils sont compatibles avec les données.

Vous pouvez faire beaucoup de travail pour assembler les données dont vous avez besoin avant de pouvoir écrire ce rapport. Tout d'abord, vous allez créer votre plan, comme suit:

  • Exigences de données générales: Créez une liste des types de données nécessaires pour répondre aux objectifs d'exploration de données. Développez la liste avec des détails tels que la plage de temps et les formats de données requis.

  • Vérifier la disponibilité des données: Vérifiez que les données requises existent et que vous pouvez les utiliser. Si certaines données que vous souhaitez ne sont pas disponibles, décidez comment vous allez résoudre ce problème. Envisagez des alternatives telles que

    • Remplacement par une autre source de données

    • Réduction de la portée du projet

    • Collecte de nouvelles données

  • Définition des critères de sélection: Identification des sources de données spécifiques (bases de données, fichiers, documents, et ainsi de suite.) vous utiliserez. Dans ces sources, spécifiez les tables, les champs et les plages de cas qui sont pertinents pour ce projet.

Une fois ces étapes franchies, vous devez obtenir les données. À ce stade, importez les données dans la plate-forme d'exploration de données que vous utiliserez pour le projet afin de confirmer qu'il est possible de le faire et que vous comprenez le processus. Au cours de cet essai, vous pouvez découvrir des limitations logicielles (ou matérielles) que vous n'aviez pas prévues, telles que

  • Limites sur le nombre de cas ou de champs, ou sur la quantité de mémoire que vous pouvez utiliser

  • Incapacité à lire formats de données de vos sources

  • Difficulté à traiter les imperfections des données (par exemple, vous risquez de rencontrer des produits qui n'importeront ou n'analyseront pas les jeux de données incomplets)

Enfin, résumez le processus de collecte dans un rapport.Le rapport devrait décrire vos besoins et expliquer en détail quelles données vous avez recueillies et de quelles sources. Vous confirmez ici que vous avez effectivement obtenu les données et qu'elles sont compatibles avec votre plate-forme d'exploration de données. Si vous avez eu des difficultés, vous expliquerez ce qu'ils étaient et comment vous les avez abordés (en utilisant d'autres sources, en révisant les plans, en changeant les formats).

Le livrable pour cette tâche n'est qu'un simple rapport, mais le travail que vous devez faire avant de pouvoir écrire ce rapport ne sera pas simple! L'accès aux données peut être l'une des parties les plus difficiles et les plus frustrantes du processus d'exploration de données, avec ses défis techniques et commerciaux.

Tâche: Description des données

Maintenant que vous avez des données, préparez une description générale de ce que vous avez.

Le livrable pour cette tâche est le rapport de description des données. Dans celui-ci, vous décrivez la source et les formats des données, le nombre de cas, le nombre et la description des champs, et toute autre information générale qui peut être importante. Vous effectuez également une brève évaluation de l'adéquation des données à vos objectifs d'exploration de données. Par exemple, vérifiez que les données incluent les zones auxquelles vous vous attendez et devez être présentes et les cas suffisants pour l'analyse.

Tâche: Exploration des données

Dans cette tâche, vous examinez les données de plus près. Pour chaque variable, vous regardez la plage de valeurs et leurs distributions. Vous utiliserez des manipulations de données simples et des techniques statistiques de base pour effectuer d'autres vérifications dans les données. L'exploration de données prend en charge plusieurs objectifs:

  • Familiarisez-vous avec les données.

  • Repérer des signes de problèmes de qualité des données.

  • Définissez la scène pour les étapes de préparation des données.

Le livrable pour cette tâche est le rapport d'exploration de données. C'est l'endroit idéal pour documenter toutes les hypothèses ou conclusions initiales que vous avez développées pendant l'exploration des données. Ce rapport devrait inclure une description plus détaillée des données que le rapport de description des données, y compris les distributions, les résumés et tout signe de problèmes de qualité des données.

Tâche: Vérification de la qualité des données

Vous avez les données et vous les avez examinées, et vous devez maintenant déterminer si elles sont suffisantes pour soutenir vos objectifs. Vous aurez souvent un problème de qualité à résoudre tout en étant capable d'aller de l'avant, mais parfois la qualité des données est si mauvaise qu'elle ne peut pas supporter votre plan et vous devrez chercher des alternatives. Parmi les problèmes de données les plus graves,

  • Les données dont vous avez besoin n'existent pas. (N'a-t-il jamais existé, ou a-t-il été rejeté? Est-ce que ces données peuvent être collectées et sauvegardées pour une utilisation future?)

  • Il existe, mais vous ne pouvez pas l'avoir. (Cette restriction peut-elle être surmontée?)

  • Vous trouvez des problèmes graves de qualité des données (beaucoup de valeurs manquantes ou incorrectes qui ne peuvent pas être corrigées).

Le livrable pour cette tâche est le rapport sur la qualité des données. Cela résume les données que vous avez, les problèmes de qualité mineurs et majeurs que vous avez trouvés, et les remèdes possibles pour les problèmes de qualité ou les alternatives (comme l'utilisation d'une ressource de données alternative).Si vous rencontrez des problèmes de qualité de données vraiment sérieux et que vous ne parvenez pas à identifier une solution adéquate, vous devrez peut-être recommander de revoir les objectifs ou les plans.

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Le choix des éditeurs

Conventions de dénomination pour Ruby on Rails - mannequins

Conventions de dénomination pour Ruby on Rails - mannequins

Vous utilisez Ruby on Rails pour créer un site Web application ou application de base de données Web, ce qui est très intelligent de votre part. En fonction de ce que vous utilisez (une application, une relation un-à-plusieurs ou une relation plusieurs-à-plusieurs), vous utilisez différentes variantes des protocoles d'attribution de noms Rails, qui sont expliquées dans les sections suivantes. Ruby Naming for ...

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En essayant de naviguer dans un espace en trois dimensions à travers un écran bidimensionnel comme un écran d'ordinateur, vous ne pouvez pas interagir avec cet espace 3D virtuel exactement comme vous le feriez dans le monde réel, ou espace de vie. La meilleure façon de visualiser le travail en 3D à travers un programme comme Blender est d'imaginer la vue 3D comme vos yeux ...

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Final Cut Pro HD Timeline vous permet d'organiser tous vos clips vidéo et audio afin qu'ils racontent l'histoire que vous voulez raconter. Pour comprendre le fonctionnement de la Timeline, imaginez-la comme une page de partitions, mais plutôt que de placer des notes de musique de différentes durées (noires, demi-notes, ...

Le choix des éditeurs

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Lorsque vous ajoutez des dimensions en sélectionnant des objets ou en utilisant l'accrochage aux objets Pour sélectionner des points sur les objets, AutoCAD crée normalement des dimensions associatives, qui sont connectées aux objets et se déplacent avec eux. C'est le cas dans les nouveaux dessins créés à l'origine dans toute version d'AutoCAD à partir de 2002. Si vous ...

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Si vous avez la chance de travailler dans un bureau Quelqu'un a mis en place des styles de cotes qui conviennent à votre secteur d'activité et à votre projet. Vous pouvez le copier et ainsi éviter de devoir créer vos propres styles de cote. (Un style de cote - ou dimstyle pour faire court - est une collection de paramètres de dessin appelée dimension ...

En choisissant un style d'édition AutoCAD -

En choisissant un style d'édition AutoCAD -

Dans AutoCAD vous passez généralement plus de temps à éditer que dessiner des objets. C'est en partie parce que le processus de conception et de rédaction est, par nature, sujet à des changements, et aussi parce que AutoCAD vous permet de modifier facilement les objets proprement. AutoCAD propose trois styles d'édition: Commande-première Sélection-première Objet-direct (poignée) AutoCAD fait référence à l'édition de commandes comme verbe-nom ...

Le choix des éditeurs

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Parce que les élèves doivent généralement donner des présentations orales en classe , vous rencontrerez probablement une question sur ce sujet dans l'examen Praxis Elementary Education. Plus formelles que les discussions de groupe, les présentations orales ont leurs propres règles pour le conférencier. Lorsque vous donnez une présentation en classe, il y a plusieurs ...

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

L'examen Praxis Elementary Education sur la littérature et le texte d'information, c'est-à-dire la fiction et la non-fiction. Vous devrez donc vous familiariser avec les différents genres d'écriture. La compréhension du texte est un processus qui se produit au fil du temps.

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Vous rencontrerez probablement une ou deux questions qui impliquent des questions phonologiques sensibilisation à l'examen Praxis Elementary Education. La conscience phonologique est une compétence large impliquant la reconnaissance de son. Les lecteurs débutants commencent par apprendre les sons individuels, ou phonèmes, dans des mots parlés. Par exemple, le mot chat a trois phonèmes: / c / / a / / t /. Un lecteur débutant apprend ...