Accueil Finances personnelles Classification Algorithmes utilisés en Data Science - nuls

Classification Algorithmes utilisés en Data Science - nuls

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025
Anonim

Avec les algorithmes de classification, vous prenez un jeu de données existant. utilisez ce que vous en savez pour générer un modèle prédictif à utiliser dans la classification des futurs points de données. Si votre objectif est d'utiliser votre ensemble de données et ses sous-ensembles connus pour créer un modèle permettant de prédire la catégorisation des futurs points de données, vous devez utiliser des algorithmes de classification.

Lors de la mise en œuvre d'une classification supervisée, vous devez déjà connaître les sous-ensembles de vos données - ces sous-ensembles sont appelés catégories . La classification vous permet de voir dans quelle mesure vos données correspondent aux catégories prédéfinies de l'ensemble de données, ce qui vous permet de créer un modèle prédictif à utiliser pour classer les futurs points de données.

La figure illustre comment elle cherche à classer les jeux de données sur le revenu et l'éducation de la Banque mondiale selon la catégorie Continent.

Vous pouvez voir que, dans certains cas, les sous-ensembles que vous pourriez identifier avec une technique de regroupement correspondent à la catégorie des continents, mais dans d'autres cas, ils ne le sont pas. Par exemple, regardez le pays asiatique au milieu des points de données africains. C'est le Bhoutan. Vous pouvez utiliser les données de cet ensemble de données pour créer un modèle qui prévoirait une catégorie de continent pour les points de données entrants.

Mais si vous introduisiez un point de données pour un nouveau pays qui présentait des statistiques similaires à celles du Bhoutan, alors le nouveau pays pourrait être classé comme faisant partie du continent asiatique ou du continent africain, selon sur la façon dont vous définissez votre modèle.

Imaginez maintenant une situation dans laquelle vos données originales n'incluent pas le Bhoutan, et vous utilisez le modèle pour prédire le continent du Bhoutan en tant que nouveau point de données. Dans ce scénario, le modèle prédirait à tort que le Bhoutan fait partie du continent africain.

Ceci est un exemple de overfitting - situations dans lesquelles un modèle est si étroitement ajusté à son ensemble de données sous-jacent, ainsi que le bruit ou l'erreur aléatoire inhérente à cet ensemble de données, que le modèle fonctionne mal comme prédicteur de nouveaux points de données.

Pour éviter de surcharger vos modèles, divisez vos données en un ensemble d'apprentissage et un ensemble de test. Un ratio typique est d'affecter 80% des données dans l'ensemble d'apprentissage et les 20% restants dans l'ensemble de test. Construisez votre modèle avec l'ensemble d'apprentissage, puis utilisez l'ensemble de tests pour évaluer le modèle en prétendant que les points de données de test sont inconnus. Vous pouvez évaluer la précision de votre modèle en comparant les catégories attribuées à ces points de données de test par le modèle aux véritables catégories.

La sur-généralisation du modèle peut également poser problème. La sur-généralisation est le contraire de l'overfitting: cela se produit quand un data scientist essaie d'éviter - la classification en raison d'un surapprentissage en rendant un modèle extrêmement général. Les modèles trop généraux finissent par attribuer à chaque catégorie un faible degré de confiance.

Pour illustrer la généralisation du modèle, considérons à nouveau les ensembles de données sur le revenu et l'éducation de la Banque mondiale. Si le modèle utilisait la présence du Bhoutan pour jeter un doute sur chaque nouveau point de données dans son voisinage immédiat, alors vous vous retrouvez avec un modèle wishy-washy qui traite tous les points voisins comme africains mais avec une faible probabilité. Ce modèle serait un mauvais prédicteur.

Une bonne métaphore de l'overfitting et de la surgénéralisation peut être illustrée par la phrase bien connue: «Si elle marche comme un canard et parle comme un canard, alors c'est un canard. "Overfitting transformerait cette phrase en:" C'est un canard si, et seulement si, il marche et fait des charlatans exactement de la façon dont j'ai personnellement observé un canard à marcher et à charlatan. Depuis que je n'ai jamais observé la façon dont un canard tacheté australien marche et fait des charlatans, un canard tacheté australien ne doit pas vraiment être un canard du tout. "

En revanche, la sur-généralisation dirait:" S'il se déplace sur deux jambes et émet un son nasillard aigu, c'est un canard. Par conséquent, Fran Fine, le personnage de Fran Drescher dans la sitcom américaine des années 90 The Nanny doit être un canard. "

L'apprentissage automatique supervisé - le terme sophistiqué de classification - est approprié dans les situations où les caractéristiques suivantes sont vraies:

  • Vous connaissez et comprenez le jeu de données que vous analysez.

  • Les sous-ensembles (catégories) de votre ensemble de données sont définis à l'avance et ne sont pas déterminés par les données.

  • Vous souhaitez créer un modèle qui corrèle les données dans ses catégories prédéfinies afin que le modèle puisse aider à prévoir la catégorisation des futurs points de données.

Lors de la classification, gardez les points suivants à l'esprit:

  • Les prédictions du modèle sont aussi bonnes que les données sous-jacentes du modèle. Dans l'exemple de données de la Banque mondiale, il se pourrait que si d'autres facteurs tels que l'espérance de vie ou la consommation d'énergie par habitant étaient ajoutés au modèle, sa force prédictive pourrait augmenter.

  • Les prédictions de modèle sont aussi bonnes que la catégorisation de l'ensemble de données sous-jacent. Par exemple, que faites-vous avec des pays comme la Russie qui s'étendent sur deux continents? Est-ce que vous distinguez l'Afrique du Nord de l'Afrique subsaharienne? Est-ce que vous regroupez l'Amérique du Nord avec l'Europe parce qu'ils ont tendance à partager des attributs similaires? Considérez-vous l'Amérique centrale comme faisant partie de l'Amérique du Nord ou de l'Amérique du Sud?

Il y a un danger constant d'overfitting et de overgeneralization. Un juste milieu doit être trouvé entre les deux.

Classification Algorithmes utilisés en Data Science - nuls

Le choix des éditeurs

Magasin de données ou entrepôt de données? - les mannequins

Magasin de données ou entrepôt de données? - les mannequins

L'idée d'un dépôt de données n'est guère révolutionnaire, malgré ce que vous pourriez lire sur les blogs et dans la presse spécialisée, et ce que vous pourriez entendre lors de conférences ou de séminaires. Un magasin de données est simplement un entrepôt de données réduit - c'est tout. Les vendeurs font de leur mieux pour définir des ...

Classer Votre Entrepôt de données - mannequins

Classer Votre Entrepôt de données - mannequins

Bien que vous devez vous assurer que votre entrepôt de données correspond à vos besoins uniques, certaines directives peuvent vous aider. vous déterminez la complexité probable de son environnement et de sa structure. Une bonne configuration consiste à utiliser une classification à trois niveaux pour la planification d'un entrepôt de données. En déterminant une catégorie probable pour une mise en œuvre, vous pouvez avoir ...

Business Intelligence Architecture et Data Warehousing - Mannequins

Business Intelligence Architecture et Data Warehousing - Mannequins

Les débuts du Business Intelligence (toute variété sauf data mining) avait une forte saveur client / serveur de première génération à deux niveaux. (Certains environnements d'intelligence d'affaires qui étaient hébergés sur un mainframe et qui effectuaient des requêtes et des rapports étaient construits avec une architecture centralisée.) Conceptuellement, les premières architectures d'intelligence d'affaires avaient du sens, compte tenu de l'état de l'art ...

Le choix des éditeurs

Câblage réseau pour l'examen de certification Cisco ICND1 - mannequins

Câblage réseau pour l'examen de certification Cisco ICND1 - mannequins

L'examen de certification ICND1 vous teste sur les différents types de câblage utilisé dans différents scénarios de réseau. Voici quelques points clés à retenir sur le câblage réseau. Rollover Cable: Un câble de survol est aussi connu comme un câble de console et obtient le nom rollover parce que l'ordre des fils d'un ...

Pour la certification compTIA A + - mannequins

Pour la certification compTIA A + - mannequins

Les examens A +, y compris le réseau local (LAN) et le réseau étendu (WAN): LAN: Un réseau local (LAN) est un réseau qui implique généralement un immeuble de bureaux ou peut-être même des systèmes en réseau sur un étage. Le principal point à retenir lors de l'identification ...

Outils de dépannage réseau - nuls

Outils de dépannage réseau - nuls

Voici une liste d'outils de dépannage courants que vous devriez connaître pour les examens A +. L'un des défis des réseaux de soutien aujourd'hui est de savoir comment les résoudre. Vous trouvez tellement d'aspects du réseau qu'il est difficile de savoir par où commencer votre dépannage. Crimper: A ...

Le choix des éditeurs

En sélectionnant Logiciel de blog hébergé - duos

En sélectionnant Logiciel de blog hébergé - duos

Lorsque vous choisissez de bloguer en utilisant un service de blog hébergé, vous n'avez pas besoin de s'inquiéter de la technologie du logiciel du tout. Vous pouvez vous concentrer sur le sujet de votre prochain article de blog plutôt que sur la manière de configurer un serveur Web. Pour utiliser un logiciel de blog hébergé, connectez-vous à l'outil d'édition, écrivez un ...

Sélectionnant l'hébergement Web pour votre blog WordPress - les nuls

Sélectionnant l'hébergement Web pour votre blog WordPress - les nuls

Après avoir choisi un domaine approprié pour votre blog, vous besoin d'un endroit pour votre installation de WordPress à vivre. N'oubliez pas que vous pouvez également demander à d'autres blogueurs quel hôte ils utilisent et quelle a été leur expérience. Les logiciels Web tels que WordPress ont certaines exigences techniques. Les exigences pour WordPress sont PHP 5. 6 ou plus ...

ÉVolutivité et Mom Blogging - mannequins

ÉVolutivité et Mom Blogging - mannequins

L'évolutivité est l'un de ces mots de jargon MBA-ish absolument ennuyeux que vous n'auriez probablement jamais pense que cela s'appliquerait à un blogueur maman. Mais ce que l'évolutivité signifie vraiment, c'est qu'une entreprise doit avoir une structure en place qui lui permet de croître. Bien sûr, vous voulez augmenter votre revenu - mais vous ...