Vidéo: Juliette ALEMANY : MT180 Normandie - édition 2017 2024
Les données de notation ont leurs limites dans l'apprentissage automatique Pour que les systèmes de recommandation fonctionnent bien, ils ont besoin de vous connaître ainsi que d'autres personnes, comme vous L'acquisition de données d'évaluation permet à un système de recommandation de tirer des leçons de l'expérience de plusieurs clients.Les données de classement peuvent découler d'un jugement (comme évaluer un produit à l'aide d'étoiles ou de chiffres) ou d'un fait (un binaire 1/0 indique que vous avez acheté le produit, visionné un film ou arrêté de naviguer sur une certaine page Web).
Peu importe la source ou le type de données, les données de classement concernent toujours les comportements. Pour classer un film, vous devez décider de le visionner, de le regarder et ensuite le noter en fonction de votre expérience de visionnage du film Les systèmes de recommandation réels apprennent à partir des données de différentes manières:
- Filtrage collaboratif: Correspondances évaluateurs basés sur les similitudes de films ou de produits utilisés dans le passé.Vous pouvez obtenir des recommandations basées sur des éléments aimé par des personnes semblables à vous ou sur des articles similaires à ceux que vous aimez.
- Filtrage basé sur le contenu: Va au-delà du fait que vous ayez regardé un film. Il examine les caractéristiques relatives à vous et à l'animation pour déterminer si une correspondance existe en fonction des catégories plus grandes représentées par les entités. Par exemple, si vous êtes une femme qui aime les films d'action, le recommandeur cherchera des suggestions qui comprennent l'intersection de ces deux catégories.
- Recommandations basées sur les connaissances: Basé sur les métadonnées, telles que les préférences exprimées par les utilisateurs et les descriptions des produits. Il repose sur l'apprentissage automatique et est efficace lorsque vous n'avez pas assez de données comportementales pour déterminer les caractéristiques de l'utilisateur ou du produit. Cela s'appelle un démarrage à froid et représente l'une des tâches recommandées les plus difficiles, car vous n'avez accès ni au filtrage collaboratif ni au filtrage basé sur le contenu.
Lorsque vous utilisez le filtrage collaboratif, vous devez calculer la similarité. En dehors des distances euclidienne, de Manhattan et de Chebyshev, le reste de cette information traite de la similarité des cosinus. La similarité cosinus mesure la distance cosinus angulaire entre deux vecteurs, ce qui peut sembler un concept difficile à saisir mais qui n'est qu'un moyen de mesurer des angles dans des espaces de données.
Imaginez un espace fait de caractéristiques et ayant deux points. Vous pouvez mesurer la distance entre les points. Par exemple, vous pourriez utiliser la distance euclidienne, qui est un choix parfait quand vous avez peu de dimensions, mais qui échoue lamentablement quand vous avez plusieurs dimensions à cause de la malédiction de la dimensionnalité.
L'idée derrière la distance cosinus est d'utiliser l'angle créé par les deux points reliés à l'origine spatiale (le point où toutes les dimensions sont nulles) à la place. Si les points sont proches, l'angle est étroit, peu importe le nombre de dimensions. S'ils sont loin, l'angle est assez grand.
La similarité des cosinus implémente la distance cosinus comme un pourcentage et est assez efficace pour dire si un utilisateur est similaire à un autre ou si un film peut être associé à un autre parce que les mêmes utilisateurs le favorisent. L'exemple suivant localise les films les plus similaires au film 50, Star Wars.
impression (colnames (MovieLense [50]))
[1] "Star Wars (1977)"
similar_movies <- similarité (MovieLense [50],
MovieLense [-50],
method = "cosinus",
which = "items")
colnames (similar_movies) [qui (similar_movies> 0.70)]
[1] "Toy Story (1995)" < "Empire contre-attaque, The (1980)"
[3] "Les aventuriers de l'arche perdue (1981)"
"Le retour du Jedi (1983)"