Accueil Finances personnelles Classification Algorithmes utilisés en Data Science - nuls

Classification Algorithmes utilisés en Data Science - nuls

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025

Vidéo: Cours de classification : méthode de partitionnement (partie 3/4) 2025
Anonim

Avec les algorithmes de classification, vous prenez un jeu de données existant. utilisez ce que vous en savez pour générer un modèle prédictif à utiliser dans la classification des futurs points de données. Si votre objectif est d'utiliser votre ensemble de données et ses sous-ensembles connus pour créer un modèle permettant de prédire la catégorisation des futurs points de données, vous devez utiliser des algorithmes de classification.

Lors de la mise en œuvre d'une classification supervisée, vous devez déjà connaître les sous-ensembles de vos données - ces sous-ensembles sont appelés catégories . La classification vous permet de voir dans quelle mesure vos données correspondent aux catégories prédéfinies de l'ensemble de données, ce qui vous permet de créer un modèle prédictif à utiliser pour classer les futurs points de données.

La figure illustre comment elle cherche à classer les jeux de données sur le revenu et l'éducation de la Banque mondiale selon la catégorie Continent.

Vous pouvez voir que, dans certains cas, les sous-ensembles que vous pourriez identifier avec une technique de regroupement correspondent à la catégorie des continents, mais dans d'autres cas, ils ne le sont pas. Par exemple, regardez le pays asiatique au milieu des points de données africains. C'est le Bhoutan. Vous pouvez utiliser les données de cet ensemble de données pour créer un modèle qui prévoirait une catégorie de continent pour les points de données entrants.

Mais si vous introduisiez un point de données pour un nouveau pays qui présentait des statistiques similaires à celles du Bhoutan, alors le nouveau pays pourrait être classé comme faisant partie du continent asiatique ou du continent africain, selon sur la façon dont vous définissez votre modèle.

Imaginez maintenant une situation dans laquelle vos données originales n'incluent pas le Bhoutan, et vous utilisez le modèle pour prédire le continent du Bhoutan en tant que nouveau point de données. Dans ce scénario, le modèle prédirait à tort que le Bhoutan fait partie du continent africain.

Ceci est un exemple de overfitting - situations dans lesquelles un modèle est si étroitement ajusté à son ensemble de données sous-jacent, ainsi que le bruit ou l'erreur aléatoire inhérente à cet ensemble de données, que le modèle fonctionne mal comme prédicteur de nouveaux points de données.

Pour éviter de surcharger vos modèles, divisez vos données en un ensemble d'apprentissage et un ensemble de test. Un ratio typique est d'affecter 80% des données dans l'ensemble d'apprentissage et les 20% restants dans l'ensemble de test. Construisez votre modèle avec l'ensemble d'apprentissage, puis utilisez l'ensemble de tests pour évaluer le modèle en prétendant que les points de données de test sont inconnus. Vous pouvez évaluer la précision de votre modèle en comparant les catégories attribuées à ces points de données de test par le modèle aux véritables catégories.

La sur-généralisation du modèle peut également poser problème. La sur-généralisation est le contraire de l'overfitting: cela se produit quand un data scientist essaie d'éviter - la classification en raison d'un surapprentissage en rendant un modèle extrêmement général. Les modèles trop généraux finissent par attribuer à chaque catégorie un faible degré de confiance.

Pour illustrer la généralisation du modèle, considérons à nouveau les ensembles de données sur le revenu et l'éducation de la Banque mondiale. Si le modèle utilisait la présence du Bhoutan pour jeter un doute sur chaque nouveau point de données dans son voisinage immédiat, alors vous vous retrouvez avec un modèle wishy-washy qui traite tous les points voisins comme africains mais avec une faible probabilité. Ce modèle serait un mauvais prédicteur.

Une bonne métaphore de l'overfitting et de la surgénéralisation peut être illustrée par la phrase bien connue: «Si elle marche comme un canard et parle comme un canard, alors c'est un canard. "Overfitting transformerait cette phrase en:" C'est un canard si, et seulement si, il marche et fait des charlatans exactement de la façon dont j'ai personnellement observé un canard à marcher et à charlatan. Depuis que je n'ai jamais observé la façon dont un canard tacheté australien marche et fait des charlatans, un canard tacheté australien ne doit pas vraiment être un canard du tout. "

En revanche, la sur-généralisation dirait:" S'il se déplace sur deux jambes et émet un son nasillard aigu, c'est un canard. Par conséquent, Fran Fine, le personnage de Fran Drescher dans la sitcom américaine des années 90 The Nanny doit être un canard. "

L'apprentissage automatique supervisé - le terme sophistiqué de classification - est approprié dans les situations où les caractéristiques suivantes sont vraies:

  • Vous connaissez et comprenez le jeu de données que vous analysez.

  • Les sous-ensembles (catégories) de votre ensemble de données sont définis à l'avance et ne sont pas déterminés par les données.

  • Vous souhaitez créer un modèle qui corrèle les données dans ses catégories prédéfinies afin que le modèle puisse aider à prévoir la catégorisation des futurs points de données.

Lors de la classification, gardez les points suivants à l'esprit:

  • Les prédictions du modèle sont aussi bonnes que les données sous-jacentes du modèle. Dans l'exemple de données de la Banque mondiale, il se pourrait que si d'autres facteurs tels que l'espérance de vie ou la consommation d'énergie par habitant étaient ajoutés au modèle, sa force prédictive pourrait augmenter.

  • Les prédictions de modèle sont aussi bonnes que la catégorisation de l'ensemble de données sous-jacent. Par exemple, que faites-vous avec des pays comme la Russie qui s'étendent sur deux continents? Est-ce que vous distinguez l'Afrique du Nord de l'Afrique subsaharienne? Est-ce que vous regroupez l'Amérique du Nord avec l'Europe parce qu'ils ont tendance à partager des attributs similaires? Considérez-vous l'Amérique centrale comme faisant partie de l'Amérique du Nord ou de l'Amérique du Sud?

Il y a un danger constant d'overfitting et de overgeneralization. Un juste milieu doit être trouvé entre les deux.

Classification Algorithmes utilisés en Data Science - nuls

Le choix des éditeurs

Conventions de dénomination pour Ruby on Rails - mannequins

Conventions de dénomination pour Ruby on Rails - mannequins

Vous utilisez Ruby on Rails pour créer un site Web application ou application de base de données Web, ce qui est très intelligent de votre part. En fonction de ce que vous utilisez (une application, une relation un-à-plusieurs ou une relation plusieurs-à-plusieurs), vous utilisez différentes variantes des protocoles d'attribution de noms Rails, qui sont expliquées dans les sections suivantes. Ruby Naming for ...

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En orbite, panoramique et zoom dans la vue 3D de Blender - mannequins

En essayant de naviguer dans un espace en trois dimensions à travers un écran bidimensionnel comme un écran d'ordinateur, vous ne pouvez pas interagir avec cet espace 3D virtuel exactement comme vous le feriez dans le monde réel, ou espace de vie. La meilleure façon de visualiser le travail en 3D à travers un programme comme Blender est d'imaginer la vue 3D comme vos yeux ...

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Déplacement de clips sur la timeline dans Final Cut Pro HD - Ficelles

Final Cut Pro HD Timeline vous permet d'organiser tous vos clips vidéo et audio afin qu'ils racontent l'histoire que vous voulez raconter. Pour comprendre le fonctionnement de la Timeline, imaginez-la comme une page de partitions, mais plutôt que de placer des notes de musique de différentes durées (noires, demi-notes, ...

Le choix des éditeurs

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Contrôle et modification de l'associativité des dimensions dans AutoCAD - Dummies

Lorsque vous ajoutez des dimensions en sélectionnant des objets ou en utilisant l'accrochage aux objets Pour sélectionner des points sur les objets, AutoCAD crée normalement des dimensions associatives, qui sont connectées aux objets et se déplacent avec eux. C'est le cas dans les nouveaux dessins créés à l'origine dans toute version d'AutoCAD à partir de 2002. Si vous ...

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Copie de styles de cote existants dans AutoCAD 2008 - mannequins

Si vous avez la chance de travailler dans un bureau Quelqu'un a mis en place des styles de cotes qui conviennent à votre secteur d'activité et à votre projet. Vous pouvez le copier et ainsi éviter de devoir créer vos propres styles de cote. (Un style de cote - ou dimstyle pour faire court - est une collection de paramètres de dessin appelée dimension ...

En choisissant un style d'édition AutoCAD -

En choisissant un style d'édition AutoCAD -

Dans AutoCAD vous passez généralement plus de temps à éditer que dessiner des objets. C'est en partie parce que le processus de conception et de rédaction est, par nature, sujet à des changements, et aussi parce que AutoCAD vous permet de modifier facilement les objets proprement. AutoCAD propose trois styles d'édition: Commande-première Sélection-première Objet-direct (poignée) AutoCAD fait référence à l'édition de commandes comme verbe-nom ...

Le choix des éditeurs

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Praxis Examen d'éducation élémentaire - Présentations orales - mannequins

Parce que les élèves doivent généralement donner des présentations orales en classe , vous rencontrerez probablement une question sur ce sujet dans l'examen Praxis Elementary Education. Plus formelles que les discussions de groupe, les présentations orales ont leurs propres règles pour le conférencier. Lorsque vous donnez une présentation en classe, il y a plusieurs ...

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

Praxis Examen d'éducation élémentaire - Littérature et texte d'information - mannequins

L'examen Praxis Elementary Education sur la littérature et le texte d'information, c'est-à-dire la fiction et la non-fiction. Vous devrez donc vous familiariser avec les différents genres d'écriture. La compréhension du texte est un processus qui se produit au fil du temps.

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Praxis Examen d'éducation élémentaire - Connaissance phonologique - mannequins

Vous rencontrerez probablement une ou deux questions qui impliquent des questions phonologiques sensibilisation à l'examen Praxis Elementary Education. La conscience phonologique est une compétence large impliquant la reconnaissance de son. Les lecteurs débutants commencent par apprendre les sons individuels, ou phonèmes, dans des mots parlés. Par exemple, le mot chat a trois phonèmes: / c / / a / / t /. Un lecteur débutant apprend ...