Accueil Finances personnelles Phase 4 du modèle de processus CRISP-DM: Modélisation - nuls

Phase 4 du modèle de processus CRISP-DM: Modélisation - nuls

Table des matières:

Vidéo: Part 2 | Data Analytics for Beginners | Analytics Lifecycle 2025

Vidéo: Part 2 | Data Analytics for Beginners | Analytics Lifecycle 2025
Anonim

La modélisation est la partie du modèle de processus intersectoriel standard pour l'exploration de données (CRISP-DM) que la plupart des données les mineurs aiment le mieux. Vos données sont déjà en bon état et vous pouvez désormais rechercher des modèles utiles dans vos données.

La phase de modélisation comprend quatre tâches. Ce sont

  • Sélection des techniques de modélisation

  • Conception du (des) test (s)

  • Modèle (s) de construction

  • Évaluation du (des) modèle (s)

Tâche: sélectionner des techniques de modélisation

Le monde merveilleux de l'exploration de données offre des tas de techniques de modélisation, mais toutes ne répondent pas à vos besoins. Affinez la liste en fonction des types de variables impliquées, de la sélection des techniques disponibles dans vos outils et de toutes les considérations commerciales importantes pour vous.

Par exemple, de nombreuses organisations privilégient les méthodes dont les résultats sont faciles à interpréter, de sorte que les arbres de décision ou la régression logistique pourraient être acceptables, mais les réseaux de neurones ne seraient probablement pas acceptés.

Les livrables pour cette tâche comprennent deux rapports:

  • Technique de modélisation: Précisez la ou les techniques que vous utiliserez.

  • Hypothèses de modélisation: De nombreuses techniques de modélisation reposent sur certaines hypothèses. Par exemple, un type de modèle peut être destiné à être utilisé avec des données ayant un type de distribution spécifique. Documentez ces hypothèses dans ce rapport.

Les statisticiens sont bien informés, stricts et pointilleux sur les hypothèses. Ce n'est pas nécessairement vrai pour les mineurs de données, et ce n'est pas une obligation de devenir un mineur de données. Si vous avez une connaissance statistique approfondie et comprenez les hypothèses derrière les modèles que vous sélectionnez, vous pouvez être strict et difficile sur les hypothèses.

Mais beaucoup de mineurs de données, en particulier les mineurs de données novices, ne se soucient guère des hypothèses. L'alternative est de tester - beaucoup et beaucoup de tests - de vos modèles.

Tâche: Conception de tests

Le test de cette tâche est le test que vous utiliserez pour déterminer le fonctionnement de votre modèle. Cela peut être aussi simple que de diviser vos données en un groupe de cas pour la formation sur modèle et un autre groupe pour le test de modèle.

Les données d'apprentissage sont utilisées pour ajuster les formes mathématiques au modèle de données, et les données de test sont utilisées pendant le processus d'apprentissage pour éviter un surajustement: faire un modèle parfait pour un ensemble de données. Vous pouvez également utiliser des données holdout, données qui ne sont pas utilisées pendant le processus de formation de modèle, pour un test supplémentaire.

Le produit livrable pour cette tâche est votre conception de test. Cela n'a pas besoin d'être compliqué, mais vous devez au moins veiller à ce que vos données de formation et de test soient similaires et à ce que vous évitiez d'introduire des biais dans les données.

Tâche: Modèle (s) de construction

La modélisation est ce que beaucoup de gens imaginent être l'ensemble du travail du data miner, mais ce n'est qu'une tâche parmi des dizaines! Néanmoins, la modélisation pour répondre à des objectifs métier spécifiques est le cœur de la profession d'exploration de données.

Les éléments livrables pour cette tâche comprennent trois éléments:

  • Paramètres des paramètres: Lors de la création de modèles, la plupart des outils vous permettent d'ajuster différents paramètres et ces paramètres ont un impact sur la structure du modèle final. Documentez ces paramètres dans un rapport.

  • Descriptions de modèles: Décrivez vos modèles. Indiquez le type de modèle (tel que la régression linéaire ou le réseau de neurones) et les variables utilisées. Expliquer comment le modèle est interprété. Documenter les difficultés rencontrées dans le processus de modélisation.

  • Modèles: Ce livrable correspond aux modèles eux-mêmes. Certains types de modèles peuvent être facilement définis avec une équation simple; d'autres sont beaucoup trop complexes et doivent être transmis dans un format plus sophistiqué.

Tâche: évaluation du (des) modèle (s)

Vous allez maintenant passer en revue les modèles que vous avez créés, d'un point de vue technique et commercial (souvent avec des experts métier de votre équipe de projet).

Les livrables de cette tâche incluent deux rapports:

  • Évaluation du modèle: Résume les informations développées dans votre revue de modèle. Si vous avez créé plusieurs modèles, vous pouvez les classer en fonction de votre évaluation de leur valeur pour une application spécifique.

  • Paramètres modifiés: Vous pouvez choisir d'ajuster les paramètres qui ont servi à construire le modèle et d'effectuer un autre cycle de modélisation, et essayer d'améliorer vos résultats.

L'extraction de données, comme un oignon, un Dobos torte ou un rocher sédimentaire, a beaucoup de couches. Lorsque vous commencez tout juste à démarrer l'exploration de données, vous pouvez commencer en laissant les paramètres à leurs valeurs par défaut (en fait, vous ne remarquerez peut-être même pas les options à moins que vous ne cherchiez à les rechercher).

À mesure que vous vous sentez à l'aise dans votre nouvelle carrière d'exploration de données, il vous sera utile de connaître les paramètres du modèle et de savoir comment vous pouvez les utiliser. Vos options varient considérablement avec le type de modèle et l'outil spécifique que vous utilisez.

Phase 4 du modèle de processus CRISP-DM: Modélisation - nuls

Le choix des éditeurs

Principes de base du protocole de routage IP Multicast - dummies

Principes de base du protocole de routage IP Multicast - dummies

IP Le routage multicast est le routage du trafic multicast. La nature des données IP Multicast est telle qu'elle a ses propres problèmes de routage de réseau Cisco. Il existe quatre protocoles de multidiffusion principaux pris en charge par le Cisco IOS actuel. L'illustration vous montre approximativement où les protocoles sont utilisés; Ce qui suit est ...

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Comment le protocole STP (Spanning Tree Protocol) gère les modifications du réseau - dummies

Nouveau concentrateur ou passer à un réseau mappé STP (Spanning Tree Protocol)? Pour cet exemple, un concentrateur était connecté à un port sur les deux commutateurs 11: 99 et 77: 22. Un concentrateur était utilisé car il ne disposait pas d'une intelligence réseau. L'effet net est en fait le même que ...

Types de réseau local (LAN) - nuls

Types de réseau local (LAN) - nuls

Un WAN est un type de réseau local (LAN) . Un réseau local est un réseau privé généralement constitué d'une connexion réseau fiable, rapide et bien connectée. Les alternatives sur le framework LAN incluent CAN, MAN et WAN. Ces trois options de réseau sont illustrées ci-dessous: CAN Si vous utilisez le réseau LAN ...

Le choix des éditeurs

Bebo est l'application de médias sociaux pour vous? - les nuls

Bebo est l'application de médias sociaux pour vous? - les nuls

Comment savez-vous quel est le bon média social pour vous? La culture moderne devient de plus en plus dépendante des médias sociaux tels que Bebo, Facebook, Twitter et What'sApp, ainsi que de nombreux autres. Le questionnaire suivant vous aidera à déterminer si vous avez ou non ce qu'il faut pour être social sur le nouveau ...

Comment utiliser Bebo - dummies

Comment utiliser Bebo - dummies

Bebo, la nouvelle application des médias sociaux, est aussi facile à utiliser que C'est amusant à regarder. Vous pouvez obtenir cette nouvelle application sur Google Play Store et Apple App Store. Lancez Bebo et suivez les instructions à l'écran pour terminer le processus de création de compte. Après avoir téléchargé avec succès, ...

Le choix des éditeurs

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

Ce que vous pouvez trouver dans une barre latérale de blog - des mannequins

La plupart des blogs contiennent du matériel de barre latérale. La plupart des blogs sont disposés en deux ou trois colonnes, et le contenu de la barre latérale apparaît généralement dans les deuxième et / ou troisième colonnes. Certains blogs n'ont pas de barres latérales, et sur d'autres blogs, vous pouvez découvrir des éléments supplémentaires au-delà de ce que vous voyez ici. Archives basées sur la date: Presque tous les blogs sont ...

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Lorsqu'un réseau publicitaire est approprié pour votre blog maman - les mannequins

Ne sont que quelques-unes modèles conflit en cours d'exécution des publicités avec vos meilleurs intérêts. C'est quand vous bloguez pour vendre vos propres produits ou pour promouvoir vos services professionnels. Même dans ce cas, il est toujours possible de diffuser des annonces sur ces blogs, surtout si les annonces font la promotion de produits et de services complémentaires et non concurrents. Mais si vous êtes ...

Quand maman blogue pour Swag is Okay - les mannequins

Quand maman blogue pour Swag is Okay - les mannequins

Dans certaines circonstances légitimes vous pouvez vous sentir travailler gratuitement vaut votre temps et la publicité que vous offrez à une marque. Cela peut être comparé à un stage non rémunéré. Si vous êtes stagiaire et que vous avez une excellente expérience de travail, alors c'est une entreprise précieuse. Si vous êtes stagiaire et que vous ne versez que du café et que vous livrez ...