Accueil Finances personnelles Classification Algorithmes utilisés en Data Science - nuls

Classification Algorithmes utilisés en Data Science - nuls

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025
Anonim

Avec les algorithmes de classification, vous prenez un jeu de données existant. utilisez ce que vous en savez pour générer un modèle prédictif à utiliser dans la classification des futurs points de données. Si votre objectif est d'utiliser votre ensemble de données et ses sous-ensembles connus pour créer un modèle permettant de prédire la catégorisation des futurs points de données, vous devez utiliser des algorithmes de classification.

Lors de la mise en œuvre d'une classification supervisée, vous devez déjà connaître les sous-ensembles de vos données - ces sous-ensembles sont appelés catégories . La classification vous permet de voir dans quelle mesure vos données correspondent aux catégories prédéfinies de l'ensemble de données, ce qui vous permet de créer un modèle prédictif à utiliser pour classer les futurs points de données.

La figure illustre comment elle cherche à classer les jeux de données sur le revenu et l'éducation de la Banque mondiale selon la catégorie Continent.

Vous pouvez voir que, dans certains cas, les sous-ensembles que vous pourriez identifier avec une technique de regroupement correspondent à la catégorie des continents, mais dans d'autres cas, ils ne le sont pas. Par exemple, regardez le pays asiatique au milieu des points de données africains. C'est le Bhoutan. Vous pouvez utiliser les données de cet ensemble de données pour créer un modèle qui prévoirait une catégorie de continent pour les points de données entrants.

Mais si vous introduisiez un point de données pour un nouveau pays qui présentait des statistiques similaires à celles du Bhoutan, alors le nouveau pays pourrait être classé comme faisant partie du continent asiatique ou du continent africain, selon sur la façon dont vous définissez votre modèle.

Imaginez maintenant une situation dans laquelle vos données originales n'incluent pas le Bhoutan, et vous utilisez le modèle pour prédire le continent du Bhoutan en tant que nouveau point de données. Dans ce scénario, le modèle prédirait à tort que le Bhoutan fait partie du continent africain.

Ceci est un exemple de overfitting - situations dans lesquelles un modèle est si étroitement ajusté à son ensemble de données sous-jacent, ainsi que le bruit ou l'erreur aléatoire inhérente à cet ensemble de données, que le modèle fonctionne mal comme prédicteur de nouveaux points de données.

Pour éviter de surcharger vos modèles, divisez vos données en un ensemble d'apprentissage et un ensemble de test. Un ratio typique est d'affecter 80% des données dans l'ensemble d'apprentissage et les 20% restants dans l'ensemble de test. Construisez votre modèle avec l'ensemble d'apprentissage, puis utilisez l'ensemble de tests pour évaluer le modèle en prétendant que les points de données de test sont inconnus. Vous pouvez évaluer la précision de votre modèle en comparant les catégories attribuées à ces points de données de test par le modèle aux véritables catégories.

La sur-généralisation du modèle peut également poser problème. La sur-généralisation est le contraire de l'overfitting: cela se produit quand un data scientist essaie d'éviter - la classification en raison d'un surapprentissage en rendant un modèle extrêmement général. Les modèles trop généraux finissent par attribuer à chaque catégorie un faible degré de confiance.

Pour illustrer la généralisation du modèle, considérons à nouveau les ensembles de données sur le revenu et l'éducation de la Banque mondiale. Si le modèle utilisait la présence du Bhoutan pour jeter un doute sur chaque nouveau point de données dans son voisinage immédiat, alors vous vous retrouvez avec un modèle wishy-washy qui traite tous les points voisins comme africains mais avec une faible probabilité. Ce modèle serait un mauvais prédicteur.

Une bonne métaphore de l'overfitting et de la surgénéralisation peut être illustrée par la phrase bien connue: «Si elle marche comme un canard et parle comme un canard, alors c'est un canard. "Overfitting transformerait cette phrase en:" C'est un canard si, et seulement si, il marche et fait des charlatans exactement de la façon dont j'ai personnellement observé un canard à marcher et à charlatan. Depuis que je n'ai jamais observé la façon dont un canard tacheté australien marche et fait des charlatans, un canard tacheté australien ne doit pas vraiment être un canard du tout. "

En revanche, la sur-généralisation dirait:" S'il se déplace sur deux jambes et émet un son nasillard aigu, c'est un canard. Par conséquent, Fran Fine, le personnage de Fran Drescher dans la sitcom américaine des années 90 The Nanny doit être un canard. "

L'apprentissage automatique supervisé - le terme sophistiqué de classification - est approprié dans les situations où les caractéristiques suivantes sont vraies:

  • Vous connaissez et comprenez le jeu de données que vous analysez.

  • Les sous-ensembles (catégories) de votre ensemble de données sont définis à l'avance et ne sont pas déterminés par les données.

  • Vous souhaitez créer un modèle qui corrèle les données dans ses catégories prédéfinies afin que le modèle puisse aider à prévoir la catégorisation des futurs points de données.

Lors de la classification, gardez les points suivants à l'esprit:

  • Les prédictions du modèle sont aussi bonnes que les données sous-jacentes du modèle. Dans l'exemple de données de la Banque mondiale, il se pourrait que si d'autres facteurs tels que l'espérance de vie ou la consommation d'énergie par habitant étaient ajoutés au modèle, sa force prédictive pourrait augmenter.

  • Les prédictions de modèle sont aussi bonnes que la catégorisation de l'ensemble de données sous-jacent. Par exemple, que faites-vous avec des pays comme la Russie qui s'étendent sur deux continents? Est-ce que vous distinguez l'Afrique du Nord de l'Afrique subsaharienne? Est-ce que vous regroupez l'Amérique du Nord avec l'Europe parce qu'ils ont tendance à partager des attributs similaires? Considérez-vous l'Amérique centrale comme faisant partie de l'Amérique du Nord ou de l'Amérique du Sud?

Il y a un danger constant d'overfitting et de overgeneralization. Un juste milieu doit être trouvé entre les deux.

Classification Algorithmes utilisés en Data Science - nuls

Le choix des éditeurs

Passez les examens en améliorant votre mentalité de performance - les nuls

Passez les examens en améliorant votre mentalité de performance - les nuls

Quels que soient les sujets que vous étudiez, êtes à l'école secondaire, au collège, à l'université, ou face à des examens professionnels ou d'entrée, pour passer vos examens, vous devez développer votre esprit de performance d'examen. Faire cela vous aidera à: Développer une attitude d'excellence - toujours viser à atteindre votre meilleur rendement personnel. Décidez exactement de ce que ...

Réussir les examens commence le premier jour de classe - les tirs

Réussir les examens commence le premier jour de classe - les tirs

Sont faciles à supposer aller à des cours, des conférences, des tutoriels ou autres, votre préparation aux examens sera dans quelques mois. Cette hypothèse, cependant, n'est pas utile. Si vous pensez que la préparation aux examens fait partie de chaque cours tous les jours - pas seulement les dernières semaines avant les examens - vous ...

Pour mémoriser l'ordre des opérations du PSAT / NMSQT - mannequins

Pour mémoriser l'ordre des opérations du PSAT / NMSQT - mannequins

L'ordre mathématique des opérations est très important sur les sections mathématiques du PSAT / NMSQT. S'il vous plaît excusez ma chère tante Sally (PEMDAS) est un moyen mnémotechnique (aide-mémoire) qui vous aide à vous rappeler quelle opération vient en premier, qui vient en second lieu, et ainsi de suite. L'ordre compte parce que si vous ignorez tante Sally, vous vous retrouvez avec la mauvaise réponse. ...

Le choix des éditeurs

10 Bonnes façons d'utiliser Bitcoin - les nuls

10 Bonnes façons d'utiliser Bitcoin - les nuls

Si vous voulez utiliser le bitcoin comme une forme d'éducation monétaire virtuelle, Utilisez-le comme un revenu supplémentaire, ou regardez-le dans une perspective d'investissement, bitcoin vous permet de faire à peu près tout ce que vous pouvez imaginer. Voici dix des meilleures façons d'utiliser Bitcoin, même s'il y en a beaucoup, beaucoup ...

Bitcoin Clés publiques et privées - nuls

Bitcoin Clés publiques et privées - nuls

Il y a plus qu'un portefeuille bitcoin que juste l'adresse elle-même. Il contient également la clé publique et privée pour chacune de vos adresses bitcoin. Votre clé privée bitcoin est une chaîne générée aléatoirement (chiffres et lettres), permettant de dépenser des bitcoins. Une clé privée est toujours liée mathématiquement à l'adresse du porte-monnaie bitcoin, ...

Bitcoin Paper Wallets - mannequins

Bitcoin Paper Wallets - mannequins

Possédant un portefeuille papier bitcoin, l'adresse contenant les bitcoins n'a pas encore été connectée au live blockchain, et n'est donc pas "active". "Jusqu'à ce que le portefeuille soit connecté à la blockchain, il est considéré comme étant en stockage à froid (jargon bitcoin pour un compte hors ligne). Vous pouvez toujours vérifier le solde ...

Le choix des éditeurs

Comment lire les données d'Excel en R - dummies

Comment lire les données d'Excel en R - dummies

Si vous demandez aux utilisateurs de R quelle est la meilleure façon est d'importer des données directement à partir de Microsoft Excel, la plupart d'entre eux répondront probablement que votre meilleure option est d'exporter d'abord Excel vers un fichier CSV, puis utiliser lire. csv () pour importer vos données à R. En fait, c'est toujours le conseil ...

Comment lire les erreurs et les avertissements dans R - dummies

Comment lire les erreurs et les avertissements dans R - dummies

Si quelque chose ne va pas avec votre code, toi. Nous devons l'admettre: Ces messages d'erreur peuvent aller de légèrement confus à complètement incompréhensible si vous n'y êtes pas habitué. Mais ça ne doit pas rester comme ça. Lorsque vous vous serez familiarisé avec les messages d'erreur et d'avertissement de R, vous pourrez rapidement ...

Comment lire la sortie de str () pour les listes dans R - dummies

Comment lire la sortie de str () pour les listes dans R - dummies

Beaucoup de gens qui commencent par R sont déroutés par les listes au début. Il n'y a vraiment pas besoin de cela - une liste n'a que deux parties importantes: les composants et les noms. Et dans le cas des listes sans nom, vous n'avez même pas à vous soucier de ce dernier. Mais si vous regardez la structure ...