Vidéo: Cours de classification 2024
Le but des algorithmes de classification et de classification est de donner un sens et d'extraire de la valeur à partir de grands ensembles de données structurées et non structurées. Si vous travaillez avec d'énormes volumes de données non structurées, il est logique d'essayer de partitionner les données en une sorte de regroupement logique avant de tenter de l'analyser.
Le regroupement et la classification vous permettent de prendre en masse un aperçu rapide de vos données, puis de former des structures logiques basées sur ce que vous y trouvez avant d'aller plus loin dans l'analyse des boulons et des boulons.
clusters sont des ensembles de points de données partageant des attributs similaires, et algorithmes de clusters sont les méthodes qui regroupent ces points de données en différents grappes en fonction de leurs similitudes. Vous verrez des algorithmes de classification utilisés pour la classification des maladies en science médicale, mais vous les verrez également utilisés pour la classification des clients dans la recherche marketing et pour l'évaluation des risques pour la santé environnementale en génie de l'environnement.Hiérarchique:
-
Les algorithmes créent des ensembles distincts de clusters imbriqués, chacun dans son propre niveau hiérarchique. Partition:
-
Les algorithmes ne créent qu'un seul ensemble de clusters. Vous pouvez utiliser des algorithmes de classification hiérarchiques uniquement si vous connaissez déjà la distance de séparation entre les points de données de votre jeu de données. L'algorithme de k-plus proche voisin décrit dans ce chapitre appartient à la classe hiérarchique des algorithmes de clustering.
En revanche, lorsque vous utilisez des algorithmes de clustering, vous n'avez aucun concept prédéfini sur le nombre de clusters appropriés pour vos données et vous utilisez les algorithmes de clustering pour trier et regrouper les données de la manière la plus appropriée. Avec les techniques de clustering, vous apprenez à partir de données non étiquetées.
Pour mieux illustrer la nature de la classification, jetez un coup d'œil à Twitter et à son système de hachage.Disons que vous venez de vous procurer votre boisson préférée dans le monde entier: un latte au caramel glacé de Starbucks. Vous êtes tellement heureux d'avoir votre boisson que vous décidez de tweeter à ce sujet avec une photo et la phrase "C'est le meilleur latte JAMAIS! #StarbucksRocks. "Eh bien, bien sûr, vous incluez" #StarbucksRocks "dans votre tweet pour que le tweet entre dans le flux #StarbucksRocks et soit classé avec tous les autres tweets étiquetés #StarbucksRocks. Votre utilisation de l'étiquette du hashtag dans votre tweet indique à Twitter comment classer vos données dans un groupe reconnaissable et accessible, ou
cluster .