Accueil Finances personnelles Mesurer la similarité entre les vecteurs d'apprentissage automatique - les nuls

Mesurer la similarité entre les vecteurs d'apprentissage automatique - les nuls

Table des matières:

Vidéo: Cours de classification 2025

Vidéo: Cours de classification 2025
Anonim

Vous pouvez facilement comparer des exemples de vos données en utilisant des calculs si vous considérez chacun d'eux comme un vecteur. Les informations suivantes décrivent comment mesurer la similarité entre vecteurs pour effectuer des tâches telles que le calcul de la distance entre les vecteurs à des fins d'apprentissage.

Comprendre la similarité

Dans une forme vectorielle, vous pouvez voir chaque variable de vos exemples comme une série de coordonnées, chacune pointant vers une position dans une dimension d'espace différente. Si un vecteur a deux éléments, c'est-à-dire qu'il n'a que deux variables, travailler avec lui revient à vérifier la position d'un objet sur une carte en utilisant le premier chiffre pour la position sur l'axe Est-Ouest et le second sur le Nord- Axe sud.

Exemples de valeurs tracées en points sur un graphique.

Par exemple, les nombres entre parenthèses (1, 2) (3, 2) et (3, 3) sont tous des exemples de points. Chaque exemple est une liste ordonnée de valeurs (appelée un tuple) qui peut être facilement localisé et imprimé sur une carte en utilisant la première valeur de la liste pour x (l'axe horizontal) et la seconde pour y (l'axe vertical). Le résultat est un nuage de points.

Si votre ensemble de données, sous forme matricielle, comporte de nombreuses caractéristiques numériques (les colonnes), idéalement, le nombre d'entités représente les dimensions de l'espace de données, tandis que les lignes (les exemples) représentent chacune point, qui est mathématiquement un vecteur. Lorsque votre vecteur comporte plus de deux éléments, la visualisation devient gênante car la représentation des dimensions au-dessus du tiers n'est pas facile (après tout, nous vivons dans un monde tridimensionnel).

Cependant, vous pouvez vous efforcer de transmettre plus de dimensionnalités par certains moyens, par exemple en utilisant la taille, la forme ou la couleur pour d'autres dimensions. Clairement, ce n'est pas une tâche facile, et souvent le résultat est loin d'être intuitif. Cependant, vous pouvez saisir l'idée de l'emplacement des points dans votre espace de données en imprimant systématiquement de nombreux graphiques tout en considérant les dimensions deux par deux. Ces parcelles sont appelées matrices de nuages ​​de points.

Ne vous inquiétez pas de la multidimensionnalité. Vous étendez les règles que vous avez apprises en deux ou trois dimensions à plusieurs dimensions. Ainsi, si une règle fonctionne dans un espace bidimensionnel, elle fonctionne également dans une zone multiple. Par conséquent, tous les exemples se réfèrent d'abord à des exemples bidimensionnels.

Calcul des distances pour l'apprentissage

Un algorithme peut apprendre en utilisant des vecteurs de nombres qui utilisent des mesures de distance. Souvent l'espace impliqué par vos vecteurs est une métrique qui est un espace dont les distances respectent certaines conditions spécifiques:

  • Aucune distance négative n'existe, et votre distance est nulle seulement lorsque le point de départ et le point final coïncident (appelé non abaissé)).
  • La distance est la même allant d'un point à l'autre et vice versa (appelée symétrie).
  • La distance entre un point initial et un point final est toujours supérieure ou, au pire, identique à la distance allant du point initial au troisième point et de là au point final (inégalité triangulaire < - ce qui signifie qu'il n'y a pas de raccourcis). Les distances qui mesurent un espace métrique sont la distance euclidienne, la distance de Manhattan et la distance de Chebyshev. Ce sont toutes les distances qui peuvent s'appliquer aux vecteurs numériques.

Distance euclidienne

La plus commune est la distance euclidienne, également décrite comme la norme l2 de deux vecteurs (lire cette discussion sur les normes l1, l2 et linfinity). Dans un plan bidimensionnel, la distance euclidienne se répare comme la droite reliant deux points, et vous la calculez comme la racine carrée de la somme de la différence au carré entre les éléments de deux vecteurs. Dans le graphique précédent, la distance euclidienne entre les points (1, 2) et (3, 3) peut être calculée dans R comme sqrt ((1-3) ^ 2 + (2-3) ^ 2), ce qui se traduit par distance d'environ 2. 236.

distance de Manhattan

Une autre mesure utile est la distance de Manhattan (également décrite comme la norme l1 de deux vecteurs). Vous calculez la distance de Manhattan en additionnant la valeur absolue de la différence entre les éléments des vecteurs. Si la distance euclidienne marque l'itinéraire le plus court, la distance de Manhattan marque l'itinéraire le plus long, ressemblant aux directions d'un taxi se déplaçant dans une ville. (La distance est également connue sous le nom de taxicab ou distance de bloc de ville.)

Par exemple, la distance de Manhattan entre les points (1, 2) et (3, 3) est abs (1-3) et abs (2-3), qui se traduit par 3.

Chebyshev distance

La distance de Chebyshev ou la métrique maximale prend le maximum de la différence absolue entre les éléments des vecteurs. C'est une mesure de distance qui peut représenter comment un roi se déplace dans le jeu d'échecs ou, dans la logistique d'entrepôt, les opérations requises par un pont roulant pour déplacer une caisse d'un endroit à l'autre.

Dans l'apprentissage automatique, la distance de Chebyshev peut s'avérer utile lorsque vous avez de nombreuses dimensions à prendre en compte et la plupart d'entre elles sont simplement inutiles ou redondantes (dans Chebyshev, vous choisissez simplement celle dont la différence absolue est la plus grande). Dans l'exemple ci-dessus, la distance est simplement 2, le maximum entre (1-3) et abs (2-3).

Mesurer la similarité entre les vecteurs d'apprentissage automatique - les nuls

Le choix des éditeurs

Purifier l'eau pendant le camping - les mannequins

Purifier l'eau pendant le camping - les mannequins

Ne présument pas que l'eau d'un terrain de camping est potable, même si ça vient d'un robinet. L'eau dans les lacs, les rivières et les sources peut sembler cristalline, mais contient souvent diverses bactéries qui peuvent causer des maladies. À moins qu'il ne soit affiché ou qu'un représentant du camping vous ait dit que l'eau est ...

Coaching Kids For Dummies Cheat Sheet - les nuls

Coaching Kids For Dummies Cheat Sheet - les nuls

En tant qu'entraîneur pour les sports d'enfants, vous voulez sortir de la saison Pour commencer, organisez une première réunion d'équipe avec les parents et les enfants pour couvrir les informations importantes. Pour se connecter avec les enfants et entraîner avec succès, comprendre les raisons pour lesquelles les enfants décident de jouer, et parfois quitter, les équipes sportives.

En choisissant la meilleure chaussure de marche pour vous - les mannequins

En choisissant la meilleure chaussure de marche pour vous - les mannequins

Vous offre une bonne paire de chaussures de marche 100 $ Ils devraient avoir une bonne absorption des chocs et devraient être plus rigides et plus favorables que les chaussures de course, malgré un avant-pied flexible. Les semelles intermédiaires sont plus minces que celles des chaussures de course pour accommoder le roulis plus lent lorsque vous marchez. Ils sont ...

Le choix des éditeurs

Ajouter des fichiers vidéo QuickTime à une page Web - des mannequins

Ajouter des fichiers vidéo QuickTime à une page Web - des mannequins

Existent avec ses propres forces et faiblesses. Mais aucun autre format multimédia n'est aussi largement accepté, capable ou pris en charge par autant d'outils multimédia et de création de pages Web différents que QuickTime. L'ajout de contenu multimédia à votre page Web est facile avec QuickTime, et l'utilisation de multimédia basé sur QuickTime est susceptible d'être facile ...

10 Façons d'augmenter vos abonnés Micro-entrepreneurs Ezine - mannequins

10 Façons d'augmenter vos abonnés Micro-entrepreneurs Ezine - mannequins

Créer une liste des personnes intéressées par ce que votre entreprise micro-entrepreneur a à offrir, puis la croissance de la liste des abonnés est essentielle pour un ezine réussie. Construire votre liste d'abonnés ezine signifie plus d'argent (potentiellement) pour votre entreprise. Offrir quelque chose de gratuit avec votre newsletter email Jetez un oeil à la façon dont d'autres éditeurs ezine commercialisent leur ...

Le choix des éditeurs

Vacances wiccan: Célébrer la Lune sur les Esbats - mannequins

Vacances wiccan: Célébrer la Lune sur les Esbats - mannequins

Les Esbats, ou jours saints wiccans lunaires Célébrez le passage de la lune autour de la Terre. Les Esbats offrent aux Wiccans une chance de mettre régulièrement de côté le temps de s'éloigner du monde ordinaire et de consacrer du temps à la réflexion spirituelle ou au travail magique. L'approche des jours saints n'est pas exhaustive.

Qu'est-ce que Pourim? - des mannequins

Qu'est-ce que Pourim? - des mannequins

Purim célèbre l'histoire racontée dans le livre biblique d'Esther, dans lequel le méchant Haman complote pour exterminer le peuple juif de l'ancienne Perse, mais est déjoué par la reine Esther et son cousin Mordecai, qui sont juifs. Prenez le cortège chrétien de Noël, ajoutez un Halloween à la maison et quelques bouteilles de vin, et vous ...

Personnes de grande importance religieuse - mannequins

Personnes de grande importance religieuse - mannequins

Toutes les religions ont des personnes importantes dont les enseignements et la vie incarnent l'esprit de foi et modèles actuels de la promesse de la foi. Ce tableau montre les fondateurs, les enseignants et les principaux dirigeants des principales religions: Personne Rôle Religion Bouddha Fondateur du bouddhisme Bouddhisme Confucius Philosophe et enseignant; fondateur du confucianisme Guru Nanak Premier gourou (chef divin) ...