Accueil Finances personnelles Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Table des matières:

Vidéo: 11 - Knowledge Management 2025

Vidéo: 11 - Knowledge Management 2025
Anonim

Dans la deuxième phase du modèle de processus standard interindustriel pour l'exploration de données (CRISP-DM), vous obtenez des données et vérifiez qu'il est approprié pour vos besoins. Vous pouvez identifier les problèmes qui vous amènent à revenir à la compréhension des affaires et à réviser votre plan. Vous pouvez même découvrir des failles dans la compréhension de votre entreprise, une autre raison de repenser les objectifs et les plans.

La phase de compréhension des données comprend quatre tâches . Ce sont

  • Collecte des données

  • Description des données

  • Exploration des données

  • Vérification de la qualité des données

Tâche: Collecte des données

Vous venez de définir des objectifs et de définir un plan d'exploration de données. Chaque étape du plan dépend d'avoir les bonnes données. Mieux vaut s'assurer que vous avez vraiment ces données!

Un seul livrable existe pour cette tâche: le rapport de collecte de données initial. Dans votre rapport, vous devez vérifier que vous avez acquis les données ou au moins obtenu l'accès aux données, testé le processus d'accès aux données et vérifié que les données existent. Vous devrez également charger des données dans les outils que vous utiliserez pour l'exploration de données afin de vérifier que les outils sont compatibles avec les données.

Vous pouvez faire beaucoup de travail pour assembler les données dont vous avez besoin avant de pouvoir écrire ce rapport. Tout d'abord, vous allez créer votre plan, comme suit:

  • Exigences de données générales: Créez une liste des types de données nécessaires pour répondre aux objectifs d'exploration de données. Développez la liste avec des détails tels que la plage de temps et les formats de données requis.

  • Vérifier la disponibilité des données: Vérifiez que les données requises existent et que vous pouvez les utiliser. Si certaines données que vous souhaitez ne sont pas disponibles, décidez comment vous allez résoudre ce problème. Envisagez des alternatives telles que

    • Remplacement par une autre source de données

    • Réduction de la portée du projet

    • Collecte de nouvelles données

  • Définition des critères de sélection: Identification des sources de données spécifiques (bases de données, fichiers, documents, et ainsi de suite.) vous utiliserez. Dans ces sources, spécifiez les tables, les champs et les plages de cas qui sont pertinents pour ce projet.

Une fois ces étapes franchies, vous devez obtenir les données. À ce stade, importez les données dans la plate-forme d'exploration de données que vous utiliserez pour le projet afin de confirmer qu'il est possible de le faire et que vous comprenez le processus. Au cours de cet essai, vous pouvez découvrir des limitations logicielles (ou matérielles) que vous n'aviez pas prévues, telles que

  • Limites sur le nombre de cas ou de champs, ou sur la quantité de mémoire que vous pouvez utiliser

  • Incapacité à lire formats de données de vos sources

  • Difficulté à traiter les imperfections des données (par exemple, vous risquez de rencontrer des produits qui n'importeront ou n'analyseront pas les jeux de données incomplets)

Enfin, résumez le processus de collecte dans un rapport.Le rapport devrait décrire vos besoins et expliquer en détail quelles données vous avez recueillies et de quelles sources. Vous confirmez ici que vous avez effectivement obtenu les données et qu'elles sont compatibles avec votre plate-forme d'exploration de données. Si vous avez eu des difficultés, vous expliquerez ce qu'ils étaient et comment vous les avez abordés (en utilisant d'autres sources, en révisant les plans, en changeant les formats).

Le livrable pour cette tâche n'est qu'un simple rapport, mais le travail que vous devez faire avant de pouvoir écrire ce rapport ne sera pas simple! L'accès aux données peut être l'une des parties les plus difficiles et les plus frustrantes du processus d'exploration de données, avec ses défis techniques et commerciaux.

Tâche: Description des données

Maintenant que vous avez des données, préparez une description générale de ce que vous avez.

Le livrable pour cette tâche est le rapport de description des données. Dans celui-ci, vous décrivez la source et les formats des données, le nombre de cas, le nombre et la description des champs, et toute autre information générale qui peut être importante. Vous effectuez également une brève évaluation de l'adéquation des données à vos objectifs d'exploration de données. Par exemple, vérifiez que les données incluent les zones auxquelles vous vous attendez et devez être présentes et les cas suffisants pour l'analyse.

Tâche: Exploration des données

Dans cette tâche, vous examinez les données de plus près. Pour chaque variable, vous regardez la plage de valeurs et leurs distributions. Vous utiliserez des manipulations de données simples et des techniques statistiques de base pour effectuer d'autres vérifications dans les données. L'exploration de données prend en charge plusieurs objectifs:

  • Familiarisez-vous avec les données.

  • Repérer des signes de problèmes de qualité des données.

  • Définissez la scène pour les étapes de préparation des données.

Le livrable pour cette tâche est le rapport d'exploration de données. C'est l'endroit idéal pour documenter toutes les hypothèses ou conclusions initiales que vous avez développées pendant l'exploration des données. Ce rapport devrait inclure une description plus détaillée des données que le rapport de description des données, y compris les distributions, les résumés et tout signe de problèmes de qualité des données.

Tâche: Vérification de la qualité des données

Vous avez les données et vous les avez examinées, et vous devez maintenant déterminer si elles sont suffisantes pour soutenir vos objectifs. Vous aurez souvent un problème de qualité à résoudre tout en étant capable d'aller de l'avant, mais parfois la qualité des données est si mauvaise qu'elle ne peut pas supporter votre plan et vous devrez chercher des alternatives. Parmi les problèmes de données les plus graves,

  • Les données dont vous avez besoin n'existent pas. (N'a-t-il jamais existé, ou a-t-il été rejeté? Est-ce que ces données peuvent être collectées et sauvegardées pour une utilisation future?)

  • Il existe, mais vous ne pouvez pas l'avoir. (Cette restriction peut-elle être surmontée?)

  • Vous trouvez des problèmes graves de qualité des données (beaucoup de valeurs manquantes ou incorrectes qui ne peuvent pas être corrigées).

Le livrable pour cette tâche est le rapport sur la qualité des données. Cela résume les données que vous avez, les problèmes de qualité mineurs et majeurs que vous avez trouvés, et les remèdes possibles pour les problèmes de qualité ou les alternatives (comme l'utilisation d'une ressource de données alternative).Si vous rencontrez des problèmes de qualité de données vraiment sérieux et que vous ne parvenez pas à identifier une solution adéquate, vous devrez peut-être recommander de revoir les objectifs ou les plans.

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Le choix des éditeurs

Principes de base du protocole de routage IP Multicast - dummies

Principes de base du protocole de routage IP Multicast - dummies

IP Le routage multicast est le routage du trafic multicast. La nature des données IP Multicast est telle qu'elle a ses propres problèmes de routage de réseau Cisco. Il existe quatre protocoles de multidiffusion principaux pris en charge par le Cisco IOS actuel. L'illustration vous montre approximativement où les protocoles sont utilisés; Ce qui suit est ...

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Nouveau concentrateur ou passer à un réseau mappé STP (Spanning Tree Protocol)? Pour cet exemple, un concentrateur était connecté à un port sur les deux commutateurs 11: 99 et 77: 22. Un concentrateur était utilisé car il ne disposait pas d'une intelligence réseau. L'effet net est en fait le même que ...

Types de réseau local (LAN) - nuls

Types de réseau local (LAN) - nuls

Un WAN est un type de réseau local (LAN) . Un réseau local est un réseau privé généralement constitué d'une connexion réseau fiable, rapide et bien connectée. Les alternatives sur le framework LAN incluent CAN, MAN et WAN. Ces trois options de réseau sont illustrées ci-dessous: CAN Si vous utilisez le réseau LAN ...

Le choix des éditeurs

Bebo est l'application de médias sociaux pour vous? - les nuls

Bebo est l'application de médias sociaux pour vous? - les nuls

Comment savez-vous quel est le bon média social pour vous? La culture moderne devient de plus en plus dépendante des médias sociaux tels que Bebo, Facebook, Twitter et What'sApp, ainsi que de nombreux autres. Le questionnaire suivant vous aidera à déterminer si vous avez ou non ce qu'il faut pour être social sur le nouveau ...

Comment utiliser Bebo - dummies

Comment utiliser Bebo - dummies

Bebo, la nouvelle application des médias sociaux, est aussi facile à utiliser que C'est amusant à regarder. Vous pouvez obtenir cette nouvelle application sur Google Play Store et Apple App Store. Lancez Bebo et suivez les instructions à l'écran pour terminer le processus de création de compte. Après avoir téléchargé avec succès, ...

Le choix des éditeurs

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

La plupart des blogs contiennent du matériel de barre latérale. La plupart des blogs sont disposés en deux ou trois colonnes, et le contenu de la barre latérale apparaît généralement dans les deuxième et / ou troisième colonnes. Certains blogs n'ont pas de barres latérales, et sur d'autres blogs, vous pouvez découvrir des éléments supplémentaires au-delà de ce que vous voyez ici. Archives basées sur la date: Presque tous les blogs sont ...

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Ne sont que quelques-unes modèles conflit en cours d'exécution des publicités avec vos meilleurs intérêts. C'est quand vous bloguez pour vendre vos propres produits ou pour promouvoir vos services professionnels. Même dans ce cas, il est toujours possible de diffuser des annonces sur ces blogs, surtout si les annonces font la promotion de produits et de services complémentaires et non concurrents. Mais si vous êtes ...

Quand maman blogue pour Swag is Okay - les mannequins

Quand maman blogue pour Swag is Okay - les mannequins

Dans certaines circonstances légitimes vous pouvez vous sentir travailler gratuitement vaut votre temps et la publicité que vous offrez à une marque. Cela peut être comparé à un stage non rémunéré. Si vous êtes stagiaire et que vous avez une excellente expérience de travail, alors c'est une entreprise précieuse. Si vous êtes stagiaire et que vous ne versez que du café et que vous livrez ...