Accueil Finances personnelles Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Table des matières:

Vidéo: 11 - Knowledge Management 2025

Vidéo: 11 - Knowledge Management 2025
Anonim

Dans la deuxième phase du modèle de processus standard interindustriel pour l'exploration de données (CRISP-DM), vous obtenez des données et vérifiez qu'il est approprié pour vos besoins. Vous pouvez identifier les problèmes qui vous amènent à revenir à la compréhension des affaires et à réviser votre plan. Vous pouvez même découvrir des failles dans la compréhension de votre entreprise, une autre raison de repenser les objectifs et les plans.

La phase de compréhension des données comprend quatre tâches . Ce sont

  • Collecte des données

  • Description des données

  • Exploration des données

  • Vérification de la qualité des données

Tâche: Collecte des données

Vous venez de définir des objectifs et de définir un plan d'exploration de données. Chaque étape du plan dépend d'avoir les bonnes données. Mieux vaut s'assurer que vous avez vraiment ces données!

Un seul livrable existe pour cette tâche: le rapport de collecte de données initial. Dans votre rapport, vous devez vérifier que vous avez acquis les données ou au moins obtenu l'accès aux données, testé le processus d'accès aux données et vérifié que les données existent. Vous devrez également charger des données dans les outils que vous utiliserez pour l'exploration de données afin de vérifier que les outils sont compatibles avec les données.

Vous pouvez faire beaucoup de travail pour assembler les données dont vous avez besoin avant de pouvoir écrire ce rapport. Tout d'abord, vous allez créer votre plan, comme suit:

  • Exigences de données générales: Créez une liste des types de données nécessaires pour répondre aux objectifs d'exploration de données. Développez la liste avec des détails tels que la plage de temps et les formats de données requis.

  • Vérifier la disponibilité des données: Vérifiez que les données requises existent et que vous pouvez les utiliser. Si certaines données que vous souhaitez ne sont pas disponibles, décidez comment vous allez résoudre ce problème. Envisagez des alternatives telles que

    • Remplacement par une autre source de données

    • Réduction de la portée du projet

    • Collecte de nouvelles données

  • Définition des critères de sélection: Identification des sources de données spécifiques (bases de données, fichiers, documents, et ainsi de suite.) vous utiliserez. Dans ces sources, spécifiez les tables, les champs et les plages de cas qui sont pertinents pour ce projet.

Une fois ces étapes franchies, vous devez obtenir les données. À ce stade, importez les données dans la plate-forme d'exploration de données que vous utiliserez pour le projet afin de confirmer qu'il est possible de le faire et que vous comprenez le processus. Au cours de cet essai, vous pouvez découvrir des limitations logicielles (ou matérielles) que vous n'aviez pas prévues, telles que

  • Limites sur le nombre de cas ou de champs, ou sur la quantité de mémoire que vous pouvez utiliser

  • Incapacité à lire formats de données de vos sources

  • Difficulté à traiter les imperfections des données (par exemple, vous risquez de rencontrer des produits qui n'importeront ou n'analyseront pas les jeux de données incomplets)

Enfin, résumez le processus de collecte dans un rapport.Le rapport devrait décrire vos besoins et expliquer en détail quelles données vous avez recueillies et de quelles sources. Vous confirmez ici que vous avez effectivement obtenu les données et qu'elles sont compatibles avec votre plate-forme d'exploration de données. Si vous avez eu des difficultés, vous expliquerez ce qu'ils étaient et comment vous les avez abordés (en utilisant d'autres sources, en révisant les plans, en changeant les formats).

Le livrable pour cette tâche n'est qu'un simple rapport, mais le travail que vous devez faire avant de pouvoir écrire ce rapport ne sera pas simple! L'accès aux données peut être l'une des parties les plus difficiles et les plus frustrantes du processus d'exploration de données, avec ses défis techniques et commerciaux.

Tâche: Description des données

Maintenant que vous avez des données, préparez une description générale de ce que vous avez.

Le livrable pour cette tâche est le rapport de description des données. Dans celui-ci, vous décrivez la source et les formats des données, le nombre de cas, le nombre et la description des champs, et toute autre information générale qui peut être importante. Vous effectuez également une brève évaluation de l'adéquation des données à vos objectifs d'exploration de données. Par exemple, vérifiez que les données incluent les zones auxquelles vous vous attendez et devez être présentes et les cas suffisants pour l'analyse.

Tâche: Exploration des données

Dans cette tâche, vous examinez les données de plus près. Pour chaque variable, vous regardez la plage de valeurs et leurs distributions. Vous utiliserez des manipulations de données simples et des techniques statistiques de base pour effectuer d'autres vérifications dans les données. L'exploration de données prend en charge plusieurs objectifs:

  • Familiarisez-vous avec les données.

  • Repérer des signes de problèmes de qualité des données.

  • Définissez la scène pour les étapes de préparation des données.

Le livrable pour cette tâche est le rapport d'exploration de données. C'est l'endroit idéal pour documenter toutes les hypothèses ou conclusions initiales que vous avez développées pendant l'exploration des données. Ce rapport devrait inclure une description plus détaillée des données que le rapport de description des données, y compris les distributions, les résumés et tout signe de problèmes de qualité des données.

Tâche: Vérification de la qualité des données

Vous avez les données et vous les avez examinées, et vous devez maintenant déterminer si elles sont suffisantes pour soutenir vos objectifs. Vous aurez souvent un problème de qualité à résoudre tout en étant capable d'aller de l'avant, mais parfois la qualité des données est si mauvaise qu'elle ne peut pas supporter votre plan et vous devrez chercher des alternatives. Parmi les problèmes de données les plus graves,

  • Les données dont vous avez besoin n'existent pas. (N'a-t-il jamais existé, ou a-t-il été rejeté? Est-ce que ces données peuvent être collectées et sauvegardées pour une utilisation future?)

  • Il existe, mais vous ne pouvez pas l'avoir. (Cette restriction peut-elle être surmontée?)

  • Vous trouvez des problèmes graves de qualité des données (beaucoup de valeurs manquantes ou incorrectes qui ne peuvent pas être corrigées).

Le livrable pour cette tâche est le rapport sur la qualité des données. Cela résume les données que vous avez, les problèmes de qualité mineurs et majeurs que vous avez trouvés, et les remèdes possibles pour les problèmes de qualité ou les alternatives (comme l'utilisation d'une ressource de données alternative).Si vous rencontrez des problèmes de qualité de données vraiment sérieux et que vous ne parvenez pas à identifier une solution adéquate, vous devrez peut-être recommander de revoir les objectifs ou les plans.

Phase 2 du modèle de processus CRISP-DM: compréhension des données - les nuls

Le choix des éditeurs

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Pour approfondir votre conscience consciente, vous devez pratiquer une méditation de pleine conscience sur une base quotidienne. Familiarisez-vous avec certaines des médiations suivantes. Avec le temps, vous deviendrez plus conscient de votre vie quotidienne. Body Meditation Meditation - Cette méditation implique de passer environ une demi-heure, en prenant conscience de ...

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Les Templiers sont presque aussi fictifs dans Dan Brown Le code Da Vinci comme les chevaliers Jedi sont dans Star Wars. Bien que le héros Robert Langdon hésite d'abord à élever les Templiers dans ses cours, parce que la mention même d'eux fait ressortir les amants du complot, Brown n'a aucun problème à les faire participer ...

Démystification des mythes communs sur la franc-maçonnerie - mannequins

Démystification des mythes communs sur la franc-maçonnerie - mannequins

La franc-maçonnerie moderne existe depuis 1717. Les premières contre-vérités concoctées sur l'Ordre sont apparues en impression à peu près en même temps. Les États-Unis étaient consumés par l'hystérie anti-maçonnique à la fin des années 1820, et l'Europe a fait de Mason-bashing un sport populaire pendant deux siècles, le liant souvent à la propagande antisémite. Internet n'a que ...

Le choix des éditeurs

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

Dans la boîte de dialogue Configurer l'affichage dans PowerPoint, cliquez sur le bouton Configurer l'affichage dans l'onglet Diaporama du ruban Office 2011 pour Mac, ou choisissez Diaporama → Configurer l'affichage dans la barre de menus. Dans les deux cas, la boîte de dialogue Configurer l'affichage polyvalent apparaît. Choisir un type de spectacle dans PowerPoint 2011 pour Mac ...

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement d'un fichier sur lequel vous travaillez dans Office 2011 pour Mac est aussi simple que de cliquer sur le bouton Enregistrer dans la barre d'outils Standard, en appuyant sur Commande-S ou en choisissant Fichier → Enregistrer. Si votre fichier a été enregistré précédemment, l'enregistrement du fichier remplace la copie existante du fichier par votre version mise à jour. Si votre fichier n'a pas ...

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Dans Office 2011 pour Mac, l'ajout d'une nouvelle présentation de diapositive à une diapositive dans la vue Diapositive maître de PowerPoint 2011 est une tâche assez simple à effectuer. Suivez ces étapes pour commencer: Assurez-vous que vous êtes en mode Masque des diapositives. Choisissez Affichage → Maître → Masque de diapositives dans la barre de menus. Cliquez sur l'onglet Masque des diapositives du ruban, ...

Le choix des éditeurs

Sélectionnez PowerPoint 2007 Objects - dummies

Sélectionnez PowerPoint 2007 Objects - dummies

Avant de pouvoir modifier un objet PowerPoint 2007 sur une diapositive, vous devez le sélectionner. Dans les présentations PowerPoint, les objets peuvent être du texte, des graphiques, des images clipart, des formes, etc. Voici quelques instructions pour sélectionner les objets PowerPoint 2007: Objets texte: Pour sélectionner un objet texte PowerPoint 2007, déplacez le point d'insertion sur le texte qui ...

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Le contrôle shapePoint de powerPoint vous permet style des objets de ligne ou la bordure pour les objets de forme solide sur vos diapositives PowerPoint. Le contrôle Shape Outline se trouve dans le groupe Styles de formes de l'onglet Outils de dessin. Vous pouvez modifier les paramètres suivants pour le contour: Couleur: Définit la couleur utilisée pour ...

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 est le logiciel de présentation le plus puissant disponible pour créer et éditer la diapositive montrer des présentations pour le travail, la maison ou l'école. PowerPoint 2016 offre un certain nombre de raccourcis clavier utiles pour effectuer des tâches rapidement. Voici quelques raccourcis pour le formatage PowerPoint commun, l'édition et les tâches de fichiers et de documents. De plus, après avoir créé votre chef-d'œuvre, vous ...