Accueil Finances personnelles Classification Algorithmes utilisés en Data Science - nuls

Classification Algorithmes utilisés en Data Science - nuls

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2024

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2024
Anonim

Avec les algorithmes de classification, vous prenez un jeu de données existant. utilisez ce que vous en savez pour générer un modèle prédictif à utiliser dans la classification des futurs points de données. Si votre objectif est d'utiliser votre ensemble de données et ses sous-ensembles connus pour créer un modèle permettant de prédire la catégorisation des futurs points de données, vous devez utiliser des algorithmes de classification.

Lors de la mise en œuvre d'une classification supervisée, vous devez déjà connaître les sous-ensembles de vos données - ces sous-ensembles sont appelés catégories . La classification vous permet de voir dans quelle mesure vos données correspondent aux catégories prédéfinies de l'ensemble de données, ce qui vous permet de créer un modèle prédictif à utiliser pour classer les futurs points de données.

La figure illustre comment elle cherche à classer les jeux de données sur le revenu et l'éducation de la Banque mondiale selon la catégorie Continent.

Vous pouvez voir que, dans certains cas, les sous-ensembles que vous pourriez identifier avec une technique de regroupement correspondent à la catégorie des continents, mais dans d'autres cas, ils ne le sont pas. Par exemple, regardez le pays asiatique au milieu des points de données africains. C'est le Bhoutan. Vous pouvez utiliser les données de cet ensemble de données pour créer un modèle qui prévoirait une catégorie de continent pour les points de données entrants.

Mais si vous introduisiez un point de données pour un nouveau pays qui présentait des statistiques similaires à celles du Bhoutan, alors le nouveau pays pourrait être classé comme faisant partie du continent asiatique ou du continent africain, selon sur la façon dont vous définissez votre modèle.

Imaginez maintenant une situation dans laquelle vos données originales n'incluent pas le Bhoutan, et vous utilisez le modèle pour prédire le continent du Bhoutan en tant que nouveau point de données. Dans ce scénario, le modèle prédirait à tort que le Bhoutan fait partie du continent africain.

Ceci est un exemple de overfitting - situations dans lesquelles un modèle est si étroitement ajusté à son ensemble de données sous-jacent, ainsi que le bruit ou l'erreur aléatoire inhérente à cet ensemble de données, que le modèle fonctionne mal comme prédicteur de nouveaux points de données.

Pour éviter de surcharger vos modèles, divisez vos données en un ensemble d'apprentissage et un ensemble de test. Un ratio typique est d'affecter 80% des données dans l'ensemble d'apprentissage et les 20% restants dans l'ensemble de test. Construisez votre modèle avec l'ensemble d'apprentissage, puis utilisez l'ensemble de tests pour évaluer le modèle en prétendant que les points de données de test sont inconnus. Vous pouvez évaluer la précision de votre modèle en comparant les catégories attribuées à ces points de données de test par le modèle aux véritables catégories.

La sur-généralisation du modèle peut également poser problème. La sur-généralisation est le contraire de l'overfitting: cela se produit quand un data scientist essaie d'éviter - la classification en raison d'un surapprentissage en rendant un modèle extrêmement général. Les modèles trop généraux finissent par attribuer à chaque catégorie un faible degré de confiance.

Pour illustrer la généralisation du modèle, considérons à nouveau les ensembles de données sur le revenu et l'éducation de la Banque mondiale. Si le modèle utilisait la présence du Bhoutan pour jeter un doute sur chaque nouveau point de données dans son voisinage immédiat, alors vous vous retrouvez avec un modèle wishy-washy qui traite tous les points voisins comme africains mais avec une faible probabilité. Ce modèle serait un mauvais prédicteur.

Une bonne métaphore de l'overfitting et de la surgénéralisation peut être illustrée par la phrase bien connue: «Si elle marche comme un canard et parle comme un canard, alors c'est un canard. "Overfitting transformerait cette phrase en:" C'est un canard si, et seulement si, il marche et fait des charlatans exactement de la façon dont j'ai personnellement observé un canard à marcher et à charlatan. Depuis que je n'ai jamais observé la façon dont un canard tacheté australien marche et fait des charlatans, un canard tacheté australien ne doit pas vraiment être un canard du tout. "

En revanche, la sur-généralisation dirait:" S'il se déplace sur deux jambes et émet un son nasillard aigu, c'est un canard. Par conséquent, Fran Fine, le personnage de Fran Drescher dans la sitcom américaine des années 90 The Nanny doit être un canard. "

L'apprentissage automatique supervisé - le terme sophistiqué de classification - est approprié dans les situations où les caractéristiques suivantes sont vraies:

  • Vous connaissez et comprenez le jeu de données que vous analysez.

  • Les sous-ensembles (catégories) de votre ensemble de données sont définis à l'avance et ne sont pas déterminés par les données.

  • Vous souhaitez créer un modèle qui corrèle les données dans ses catégories prédéfinies afin que le modèle puisse aider à prévoir la catégorisation des futurs points de données.

Lors de la classification, gardez les points suivants à l'esprit:

  • Les prédictions du modèle sont aussi bonnes que les données sous-jacentes du modèle. Dans l'exemple de données de la Banque mondiale, il se pourrait que si d'autres facteurs tels que l'espérance de vie ou la consommation d'énergie par habitant étaient ajoutés au modèle, sa force prédictive pourrait augmenter.

  • Les prédictions de modèle sont aussi bonnes que la catégorisation de l'ensemble de données sous-jacent. Par exemple, que faites-vous avec des pays comme la Russie qui s'étendent sur deux continents? Est-ce que vous distinguez l'Afrique du Nord de l'Afrique subsaharienne? Est-ce que vous regroupez l'Amérique du Nord avec l'Europe parce qu'ils ont tendance à partager des attributs similaires? Considérez-vous l'Amérique centrale comme faisant partie de l'Amérique du Nord ou de l'Amérique du Sud?

Il y a un danger constant d'overfitting et de overgeneralization. Un juste milieu doit être trouvé entre les deux.

Classification Algorithmes utilisés en Data Science - nuls

Le choix des éditeurs

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Tableaux et pointeurs en C ++ - le nom du tableau des mannequins

Est un pointeur sur le tableau lui-même. Le tableau est une séquence de variables stockée en mémoire. Le nom du tableau pointe vers le premier élément. C'est une question intéressante sur les pointeurs: Pouvez-vous avoir un en-tête de fonction, comme la ligne suivante, et juste utiliser sizeof pour déterminer comment ...

Boost Bibliothèques et C ++ - mannequins

Boost Bibliothèques et C ++ - mannequins

De nombreux développeurs utilisent les bibliothèques Boost car elles fournissent un code de haute qualité une partie de Boost est en train d'être normalisée pour être incluse dans la bibliothèque standard. L'une des meilleures choses à propos de Boost est que la bibliothèque elle-même est gratuite. Le site Web de Boost tient à faire savoir aux développeurs qu'ils ne ...

Casser les programmes Mis à part C ++ - les mannequins

Casser les programmes Mis à part C ++ - les mannequins

Le programmeur peut casser un seul programme en fichiers sources distincts généralement appelés modules. Ces modules sont compilés séparément dans le code machine par le compilateur C ++, puis combinés au cours du processus de génération pour générer un seul programme. Ces modules sont également connus par les geeks du compilateur en tant qu'unités de traduction C ++. Le processus de combinaison ...

Le choix des éditeurs

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

Comment régler les paramètres via l'affichage d'informations sur votre Nikon D5200 - mannequins

L'information l'affichage ne sert pas uniquement à vérifier les paramètres de prise de vue actuels; Cela vous donne également un accès rapide à certains des paramètres les plus critiques. La touche de cette fonction est le bouton Information Edit, situé à l'arrière de l'appareil photo, à droite du viseur. Voici comment cela fonctionne: Afficher les informations ...

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

Met en surbrillance le mode d'affichage sur votre Nikon D7100 - mannequins

En mode d'affichage hautes lumières sur votre Nikon D7100 pense que l'appareil photo peut être surexposé clignoter dans le moniteur de l'appareil photo. L'un des problèmes de photo les plus difficiles à corriger dans un programme de retouche photo est connu sous le nom de surbrillance dans certains cercles et de surbrillance dans d'autres. Les deux termes signifient que les zones les plus claires de ...

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Comment régler les paramètres via la bande de contrôle Nikon D3300 - les tétines

Présentes en bas à gauche Au coin du Nikon D3300, le bouton i active une bande de contrôle qui vous donne un accès rapide à certains paramètres de prise de vue critiques. Voici comment utiliser la bande de contrôle pour la photographie dans le viseur: Affichez l'écran d'informations. Vous pouvez le faire en appuyant sur le bouton Info. Appuyez sur le bouton i. Le haut ...

Le choix des éditeurs

Comment imprimer vos diapositives et notes Keynote - Les tétines

Comment imprimer vos diapositives et notes Keynote - Les tétines

Lorsque vous créez une présentation dans Snow Leopard Application Keynote, vous ne pouvez pas toujours vouloir imprimer des documents. Cependant, si vous présentez un long diaporama avec beaucoup d'informations que vous aimeriez que votre public se souvienne, rien ne vaut les documents qui incluent des images réduites de vos diapositives (et, facultativement, les notes de votre présentateur). Vous pouvez ...

Comment réorganiser ou supprimer les signets - les mannequins

Comment réorganiser ou supprimer les signets - les mannequins

Safari enregistre vos signets et vos dossiers de signets dans l'ordre dans lequel vous les créez, en les ajoutant au bas d'une liste toujours croissante. Si vous continuez à ajouter des marque-pages au menu Signets sans les placer dans des dossiers, vous pouvez constater que vous avez un nombre de signets gazillion indiqué bon gré mal gré et que vous ne vous en souvenez plus ...

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Pour ouvrir et utiliser l'iDisk de Snow Leopard - les mannequins

Avec un compte MobileMe actif, iDisk est disponible et vous fournit un espace de stockage supplémentaire. Pour connaître l'espace de stockage utilisé et pour configurer l'accès à votre dossier Public, ouvrez les Préférences Système, cliquez sur l'icône MobileMe, puis sur le bouton iDisk pour afficher les paramètres. Vos paramètres iDisk sont disponibles dans les Préférences Système. Le ...