Principes de base des filtres d'analyse prédictive basés sur le contenu - dummies

Les systèmes de recommandation d'analyse prédictive basés sur le contenu correspondent pour la plupart aux fonctionnalités (mots clés étiquetés) le profil de l'utilisateur pour faire des recommandations. Lorsqu'un utilisateur achète un article ayant des caractéristiques marquées, les articles dont les caractéristiques correspondent à celles de l'article original seront recommandés. Plus les fonctions correspondent, plus la probabilité que l'utilisateur apprécie la recommandation est élevée. Ce degré de probabilité est appelé précision.

Notions de base sur les balises pour décrire les articles

En général, l'entreprise qui vend (ou le fabricant) étiquette généralement ses articles avec des mots-clés. Sur le site Amazon, cependant, il est assez typique de ne jamais voir les tags pour les articles achetés ou visualisés - et même de ne pas être invité à étiqueter un article. Les clients peuvent consulter les articles qu'ils ont achetés, mais ce n'est pas la même chose que le marquage.

Les éléments d'étiquetage peuvent poser un défi d'échelle pour un magasin comme Amazon qui a tellement d'éléments. En outre, certains attributs peuvent être subjectifs et peuvent être étiquetés de manière incorrecte, en fonction de qui l'étiquette. Une solution qui résout le problème de mise à l'échelle est de permettre aux clients ou au grand public d'étiqueter les éléments.

Afin de garder les balises gérables et précises, un ensemble acceptable de balises peut être fourni par le site Web. Ce n'est que lorsqu'un nombre approprié d'utilisateurs est d'accord (c'est-à-dire utiliser la même étiquette pour décrire un article) que l'étiquette convenue sera utilisée pour décrire l'article.

Le balisage basé sur l'utilisateur pose cependant d'autres problèmes pour un système de filtrage basé sur le contenu (et le filtrage collaboratif):

Crédibilité: Tous les clients ne disent pas la vérité (surtout en ligne) et les utilisateurs seul un petit historique de notation peut fausser les données. En outre, certains fournisseurs peuvent donner (ou encourager d'autres personnes à donner) des notes positives à leurs propres produits tout en donnant une note négative aux produits de leurs concurrents.
Sparsity: Tous les articles ne seront pas notés ou auront suffisamment d'évaluations pour produire des données utiles.
Incohérence: Tous les utilisateurs n'utilisent pas les mêmes mots-clés pour marquer un élément, même si la signification peut être la même. De plus, certains attributs peuvent être subjectifs. Par exemple, un spectateur d'un film peut considérer qu'il est court tandis qu'un autre dit qu'il est trop long.

Les attributs ont besoin de définitions claires. Un attribut avec trop peu de limites est difficile à évaluer. imposer trop de règles sur un attribut peut demander aux utilisateurs de faire trop de travail, ce qui les découragera de marquer des éléments.

Le balisage de la plupart des éléments d'un catalogue de produits peut aider à résoudre le problème de démarrage à froid qui affecte le filtrage collaboratif.Pendant un certain temps, cependant, la précision des recommandations du système sera faible jusqu'à ce qu'il crée ou obtienne un profil d'utilisateur.

Voici un exemple de matrice de clients et leurs articles achetés, montre un exemple de filtrage basé sur le contenu.

Articles	Fonction 1	Fonction 2	Fonction 3
Point 1	X	X
Point 2	X	X
Point 3	X	X	X
Point 4	X	X	X
Point 5	X > X	X	Ici, si un utilisateur aime la caractéristique 2 - et cela est enregistré dans son profil - le système recommandera tous les éléments qui ont la caractéristique 2: Élément 1, Élément 2 et Élément 4. > Cette approche fonctionne même si l'utilisateur n'a jamais acheté ou revu un objet. Le système recherchera simplement dans la base de données des produits les éléments qui ont été marqués avec la caractéristique 2. Si (par exemple) un utilisateur qui recherche des films avec Audrey Hepburn - et cette préférence apparaît dans le profil de l'utilisateur - le système recommandera tous les films qui comportent Audrey Hepburn à cet utilisateur.

Cet exemple expose cependant rapidement une limitation de la technique de filtrage basée sur le contenu: l'utilisateur connaît probablement déjà tous les films dans lesquels Audrey Hepburn a été, ou peut facilement le découvrir - du point de vue de cet utilisateur, le système n'a rien recommandé de nouveau ou de valeur.

Comment améliorer la précision avec un retour constant

Une façon d'améliorer la précision des recommandations du système est de demander aux clients, dans la mesure du possible, des commentaires. La collecte des commentaires des clients peut se faire de différentes manières, à travers plusieurs canaux. Certaines entreprises demandent au client d'évaluer un article ou un service après l'achat. D'autres systèmes offrent des liens de type médias sociaux afin que les clients puissent «aimer» ou «n'aiment pas» un produit. Interaction constante entre

Comment mesurer l'efficacité des recommandations du système

Le succès des recommandations d'un système dépend de la mesure dans laquelle il répond à deux critères:

précision

(pensez à un ensemble de correspondances parfaites - Habituellement, un petit ensemble) et rappellent (considérez-le comme un ensemble de correspondances possibles - généralement un plus grand ensemble). Voici de plus près: Précision mesure la précision de la recommandation du système. La précision est difficile à mesurer car elle peut être subjective et difficile à quantifier. Par exemple, lorsqu'un utilisateur visite le site Amazon pour la première fois, Amazon peut-il savoir avec certitude si ses recommandations sont bien ciblées?

Certaines recommandations peuvent être en lien avec les intérêts du client, mais le client ne peut toujours pas acheter. La plus grande confiance qu'une recommandation est précise provient d'une évidence claire: le client achète l'article. Alternativement, le système peut demander explicitement à l'utilisateur d'évaluer ses recommandations. Le rappel

mesure l'ensemble des bonnes recommandations possibles que votre système propose. Considérez le rappel comme un inventaire des recommandations possibles, mais toutes ne sont pas des recommandations parfaites. Il y a généralement une relation inverse à la précision et au rappel. C'est-à-dire qu'au fur et à mesure que le rappel augmente, la précision diminue et vice versa.
Le système idéal aurait à la fois une haute précision et un haut niveau de rappel. Mais de façon réaliste, le meilleur résultat est de trouver un équilibre délicat entre les deux. Mettre l'accent sur la précision ou le rappel dépend vraiment du problème que vous essayez de résoudre.