Vidéo: La révélation des Pyramides - Le film en français 2024
Le regroupement et la classification sont tous deux basés sur le calcul de la similarité ou de la différence entre deux points de données. Si votre jeu de données est numérique - composé uniquement de champs numériques et de valeurs - et peut être représenté sur un graphique en dimension n , vous pouvez utiliser diverses mesures géométriques pour mettre à l'échelle votre multidimensionnel Les données.
Un tracé n-dimensionnel est un diagramme de diagramme de dispersion multidimensionnel que vous pouvez utiliser pour tracer n nombre de dimensions de données.
Certaines métriques géométriques populaires utilisées pour calculer les distances entre les points de données incluent les métriques de distance Euclidienne, Manhattan ou Minkowski. Ces métriques ne sont que des fonctions géométriques différentes qui sont utiles pour modéliser les distances entre les points. La métrique euclidienne est une mesure de la distance entre les points tracés sur un plan euclidien.
La mesure de Manhattan est une mesure de la distance entre les points où la distance est calculée comme la somme de la valeur absolue des différences entre les coordonnées cartésiennes de deux points. La métrique de distance de Minkowski est une généralisation des métriques de distance Euclidienne et Manhattan. Très souvent, ces mesures peuvent être utilisées de manière interchangeable.
Si vos données sont numériques mais non-plotables (comme des courbes au lieu de points), vous pouvez générer des scores de similarité basés sur différences entre les données, au lieu des valeurs réelles de les données elles-mêmes.
Enfin, pour les données non numériques, vous pouvez utiliser des métriques telles que la mesure de distance Jaccard, qui est un index comparant le nombre d'entités communes à deux points de données. Par exemple, pour illustrer une distance de Jaccard, pensez aux deux chaînes de caractères suivantes: Saint Louis de Ha-Ha, Québec et St-Louis de Ha! Ha!, QC.
Quelles sont les caractéristiques communes à ces chaînes de texte? Et quelles caractéristiques sont différentes entre eux? La métrique Jaccard génère une valeur d'index numérique qui quantifie la similarité entre les chaînes de texte.