Accueil Finances personnelles Classification Algorithmes utilisés en Data Science - nuls

Classification Algorithmes utilisés en Data Science - nuls

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025
Anonim

Avec les algorithmes de classification, vous prenez un jeu de données existant. utilisez ce que vous en savez pour générer un modèle prédictif à utiliser dans la classification des futurs points de données. Si votre objectif est d'utiliser votre ensemble de données et ses sous-ensembles connus pour créer un modèle permettant de prédire la catégorisation des futurs points de données, vous devez utiliser des algorithmes de classification.

Lors de la mise en œuvre d'une classification supervisée, vous devez déjà connaître les sous-ensembles de vos données - ces sous-ensembles sont appelés catégories . La classification vous permet de voir dans quelle mesure vos données correspondent aux catégories prédéfinies de l'ensemble de données, ce qui vous permet de créer un modèle prédictif à utiliser pour classer les futurs points de données.

La figure illustre comment elle cherche à classer les jeux de données sur le revenu et l'éducation de la Banque mondiale selon la catégorie Continent.

Vous pouvez voir que, dans certains cas, les sous-ensembles que vous pourriez identifier avec une technique de regroupement correspondent à la catégorie des continents, mais dans d'autres cas, ils ne le sont pas. Par exemple, regardez le pays asiatique au milieu des points de données africains. C'est le Bhoutan. Vous pouvez utiliser les données de cet ensemble de données pour créer un modèle qui prévoirait une catégorie de continent pour les points de données entrants.

Mais si vous introduisiez un point de données pour un nouveau pays qui présentait des statistiques similaires à celles du Bhoutan, alors le nouveau pays pourrait être classé comme faisant partie du continent asiatique ou du continent africain, selon sur la façon dont vous définissez votre modèle.

Imaginez maintenant une situation dans laquelle vos données originales n'incluent pas le Bhoutan, et vous utilisez le modèle pour prédire le continent du Bhoutan en tant que nouveau point de données. Dans ce scénario, le modèle prédirait à tort que le Bhoutan fait partie du continent africain.

Ceci est un exemple de overfitting - situations dans lesquelles un modèle est si étroitement ajusté à son ensemble de données sous-jacent, ainsi que le bruit ou l'erreur aléatoire inhérente à cet ensemble de données, que le modèle fonctionne mal comme prédicteur de nouveaux points de données.

Pour éviter de surcharger vos modèles, divisez vos données en un ensemble d'apprentissage et un ensemble de test. Un ratio typique est d'affecter 80% des données dans l'ensemble d'apprentissage et les 20% restants dans l'ensemble de test. Construisez votre modèle avec l'ensemble d'apprentissage, puis utilisez l'ensemble de tests pour évaluer le modèle en prétendant que les points de données de test sont inconnus. Vous pouvez évaluer la précision de votre modèle en comparant les catégories attribuées à ces points de données de test par le modèle aux véritables catégories.

La sur-généralisation du modèle peut également poser problème. La sur-généralisation est le contraire de l'overfitting: cela se produit quand un data scientist essaie d'éviter - la classification en raison d'un surapprentissage en rendant un modèle extrêmement général. Les modèles trop généraux finissent par attribuer à chaque catégorie un faible degré de confiance.

Pour illustrer la généralisation du modèle, considérons à nouveau les ensembles de données sur le revenu et l'éducation de la Banque mondiale. Si le modèle utilisait la présence du Bhoutan pour jeter un doute sur chaque nouveau point de données dans son voisinage immédiat, alors vous vous retrouvez avec un modèle wishy-washy qui traite tous les points voisins comme africains mais avec une faible probabilité. Ce modèle serait un mauvais prédicteur.

Une bonne métaphore de l'overfitting et de la surgénéralisation peut être illustrée par la phrase bien connue: «Si elle marche comme un canard et parle comme un canard, alors c'est un canard. "Overfitting transformerait cette phrase en:" C'est un canard si, et seulement si, il marche et fait des charlatans exactement de la façon dont j'ai personnellement observé un canard à marcher et à charlatan. Depuis que je n'ai jamais observé la façon dont un canard tacheté australien marche et fait des charlatans, un canard tacheté australien ne doit pas vraiment être un canard du tout. "

En revanche, la sur-généralisation dirait:" S'il se déplace sur deux jambes et émet un son nasillard aigu, c'est un canard. Par conséquent, Fran Fine, le personnage de Fran Drescher dans la sitcom américaine des années 90 The Nanny doit être un canard. "

L'apprentissage automatique supervisé - le terme sophistiqué de classification - est approprié dans les situations où les caractéristiques suivantes sont vraies:

  • Vous connaissez et comprenez le jeu de données que vous analysez.

  • Les sous-ensembles (catégories) de votre ensemble de données sont définis à l'avance et ne sont pas déterminés par les données.

  • Vous souhaitez créer un modèle qui corrèle les données dans ses catégories prédéfinies afin que le modèle puisse aider à prévoir la catégorisation des futurs points de données.

Lors de la classification, gardez les points suivants à l'esprit:

  • Les prédictions du modèle sont aussi bonnes que les données sous-jacentes du modèle. Dans l'exemple de données de la Banque mondiale, il se pourrait que si d'autres facteurs tels que l'espérance de vie ou la consommation d'énergie par habitant étaient ajoutés au modèle, sa force prédictive pourrait augmenter.

  • Les prédictions de modèle sont aussi bonnes que la catégorisation de l'ensemble de données sous-jacent. Par exemple, que faites-vous avec des pays comme la Russie qui s'étendent sur deux continents? Est-ce que vous distinguez l'Afrique du Nord de l'Afrique subsaharienne? Est-ce que vous regroupez l'Amérique du Nord avec l'Europe parce qu'ils ont tendance à partager des attributs similaires? Considérez-vous l'Amérique centrale comme faisant partie de l'Amérique du Nord ou de l'Amérique du Sud?

Il y a un danger constant d'overfitting et de overgeneralization. Un juste milieu doit être trouvé entre les deux.

Classification Algorithmes utilisés en Data Science - nuls

Le choix des éditeurs

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Découvrir les Méditations de Pleine Conscience Formelle - les nuls

Pour approfondir votre conscience consciente, vous devez pratiquer une méditation de pleine conscience sur une base quotidienne. Familiarisez-vous avec certaines des médiations suivantes. Avec le temps, vous deviendrez plus conscient de votre vie quotidienne. Body Meditation Meditation - Cette méditation implique de passer environ une demi-heure, en prenant conscience de ...

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Démystifier Dan Brown: Les Templiers Royaux - les nuls

Les Templiers sont presque aussi fictifs dans Dan Brown Le code Da Vinci comme les chevaliers Jedi sont dans Star Wars. Bien que le héros Robert Langdon hésite d'abord à élever les Templiers dans ses cours, parce que la mention même d'eux fait ressortir les amants du complot, Brown n'a aucun problème à les faire participer ...

Démystification des mythes communs sur la franc-maçonnerie - mannequins

Démystification des mythes communs sur la franc-maçonnerie - mannequins

La franc-maçonnerie moderne existe depuis 1717. Les premières contre-vérités concoctées sur l'Ordre sont apparues en impression à peu près en même temps. Les États-Unis étaient consumés par l'hystérie anti-maçonnique à la fin des années 1820, et l'Europe a fait de Mason-bashing un sport populaire pendant deux siècles, le liant souvent à la propagande antisémite. Internet n'a que ...

Le choix des éditeurs

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

À L'aide de la boîte de dialogue Configurer l'affichage dans PowerPoint 2011 pour Mac - témoins

Dans la boîte de dialogue Configurer l'affichage dans PowerPoint, cliquez sur le bouton Configurer l'affichage dans l'onglet Diaporama du ruban Office 2011 pour Mac, ou choisissez Diaporama → Configurer l'affichage dans la barre de menus. Dans les deux cas, la boîte de dialogue Configurer l'affichage polyvalent apparaît. Choisir un type de spectacle dans PowerPoint 2011 pour Mac ...

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement des fichiers dans Office 2011 pour Mac - témoins

Enregistrement d'un fichier sur lequel vous travaillez dans Office 2011 pour Mac est aussi simple que de cliquer sur le bouton Enregistrer dans la barre d'outils Standard, en appuyant sur Commande-S ou en choisissant Fichier → Enregistrer. Si votre fichier a été enregistré précédemment, l'enregistrement du fichier remplace la copie existante du fichier par votre version mise à jour. Si votre fichier n'a pas ...

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Fonctionnant avec les modèles de diapositives maîtres dans PowerPoint 2011 pour Mac - les nuls

Dans Office 2011 pour Mac, l'ajout d'une nouvelle présentation de diapositive à une diapositive dans la vue Diapositive maître de PowerPoint 2011 est une tâche assez simple à effectuer. Suivez ces étapes pour commencer: Assurez-vous que vous êtes en mode Masque des diapositives. Choisissez Affichage → Maître → Masque de diapositives dans la barre de menus. Cliquez sur l'onglet Masque des diapositives du ruban, ...

Le choix des éditeurs

Sélectionnez PowerPoint 2007 Objects - dummies

Sélectionnez PowerPoint 2007 Objects - dummies

Avant de pouvoir modifier un objet PowerPoint 2007 sur une diapositive, vous devez le sélectionner. Dans les présentations PowerPoint, les objets peuvent être du texte, des graphiques, des images clipart, des formes, etc. Voici quelques instructions pour sélectionner les objets PowerPoint 2007: Objets texte: Pour sélectionner un objet texte PowerPoint 2007, déplacez le point d'insertion sur le texte qui ...

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Définir le contour de la forme sur une diapositive PowerPoint 2007 - dummies

Le contrôle shapePoint de powerPoint vous permet style des objets de ligne ou la bordure pour les objets de forme solide sur vos diapositives PowerPoint. Le contrôle Shape Outline se trouve dans le groupe Styles de formes de l'onglet Outils de dessin. Vous pouvez modifier les paramètres suivants pour le contour: Couleur: Définit la couleur utilisée pour ...

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 pour les nuls Cheat Sheet - les nuls

PowerPoint 2016 est le logiciel de présentation le plus puissant disponible pour créer et éditer la diapositive montrer des présentations pour le travail, la maison ou l'école. PowerPoint 2016 offre un certain nombre de raccourcis clavier utiles pour effectuer des tâches rapidement. Voici quelques raccourcis pour le formatage PowerPoint commun, l'édition et les tâches de fichiers et de documents. De plus, après avoir créé votre chef-d'œuvre, vous ...