Vidéo: 2015 Pop Days : 12 research projects at a glance! 2024
La machine à vecteurs de support (SVM) est un algorithme de classification des données d'analyse prédictive éléments de données à l'une des catégories étiquetées. SVM est, dans la plupart des cas, un classificateur binaire ; il suppose que les données en question contiennent deux valeurs cibles possibles.
Une autre version de l'algorithme SVM, SVM multiclasses, augmente SVM pour être utilisé comme classificateur sur un ensemble de données contenant plus d'une classe (regroupement ou catégorie). SVM a été utilisé avec succès dans de nombreuses applications telles que la reconnaissance d'image, le diagnostic médical et l'analyse de texte.
Supposons que vous concevez un modèle d'analyse prédictive qui reconnaîtra et prédisera automatiquement le nom d'un objet dans une image. C'est essentiellement le problème de reconnaissance d'image - ou, plus précisément, de reconnaissance de visage: vous voulez que le classificateur reconnaisse le nom d'une personne dans une photo.
Eh bien, avant d'aborder ce niveau de complexité, considérons une version plus simple du même problème: Supposons que vous ayez des images de morceaux de fruits individuels et que vous souhaitiez que votre classificateur prédise quel type de fruit apparaît dans l'image. Supposons que vous avez seulement deux types de fruits: les pommes et les poires, un par image.
Avec une nouvelle image, vous souhaitez prédire si le fruit est une pomme ou une poire - sans regarder l'image. Vous voulez que le SVM classe chaque image en tant que pomme ou poire. Comme pour tous les autres algorithmes, la première étape consiste à former le classificateur.
Supposons que vous ayez 200 photos de pommes différentes et 200 photos de poires. L'étape d'apprentissage consiste à transmettre ces images au classificateur afin qu'il apprenne à quoi ressemble une pomme et à quoi ressemble une poire. Avant d'entrer dans cette première étape, vous devez transformer chaque image en une matrice de données, en utilisant (disons) le paquet statistique R.
Une façon simple de représenter une image sous forme de nombres dans une matrice est de rechercher des formes géométriques dans l'image (telles que des cercles, des lignes, des carrés ou des rectangles) ainsi que les positions de chaque instance de chaque forme géométrique. Ces nombres peuvent également représenter les coordonnées de ces objets dans l'image, comme indiqué dans un système de coordonnées.
Comme vous pouvez l'imaginer, représenter une image comme une matrice de nombres n'est pas vraiment une tâche simple. Un domaine de recherche distinct est consacré à la représentation de l'image.
Voici comment une machine à vecteurs de support peut prédire la classe d'un fruit (en l'appelant mathématiquement pomme ou poire ), d'après ce que l'algorithme a appris dans le passé.
Supposons que vous ayez converti toutes les images en matrices de données. Ensuite, la machine à vecteurs de support prend deux entrées principales:
-
Données précédentes (formation): cet ensemble de matrices correspond à des images précédemment vues de pommes et de poires.
-
Les nouvelles données (non vues) consistent en une image convertie en une matrice. Le but est de prédire automatiquement ce qui est dans l'image - une pomme ou une poire.
Le vecteur de support utilise une fonction mathématique, souvent appelée fonction noyau qui est une fonction mathématique qui associe les nouvelles données à la meilleure image des données d'apprentissage afin de prédire l'étiquette de l'image inconnue (pomme ou poire).
Par rapport aux autres classificateurs, les machines vectorielles de support produisent des prédictions robustes et précises, sont moins affectées par les données bruitées et moins sujettes à l'overfitting. Gardez à l'esprit, cependant, que les machines vectorielles de support sont les plus appropriées pour la classification binaire - quand vous avez seulement deux catégories (comme la pomme ou la poire).