0

Lors de la décomposition d'une matrice de notation pour un système de recommandation, la matrice de notation peut être écrite comme P * t (Q), P représentant une matrice de facteur utilisateur et Q une matrice de facteur d'article. La dimension de Q peut être écrite en tant que rang * nombre d'éléments. Je me demande si les valeurs dans la matrice Q représentent réellement quelque chose, comme le poids de l'article? Et aussi, est-il possible de trouver des motifs cachés dans la matrice Q? Pensez aux caractéristiques comme la direction importante de la variance dans les données multidimensionnelles.Que représentent les valeurs des modèles de caractéristiques latentes pour la matrice d'utilisateur et d'élément dans le filtre collaboratif?

Répondre

0

Imaginez un graphique en trois dimensions indiquant quel article a été acheté par l'utilisateur. Ce serait une tache amorphe, mais l'axe ou l'orientation réelle de la tache n'est probablement pas le long des axes x, y, z. Les vecteurs qu'elle oriente sont les entités sous forme vectorielle. Prenez ceci à des données dimensionnelles énormes (beaucoup d'utilisateurs, beaucoup d'articles) et ces données de haute dimension peuvent très souvent être couvertes par un petit nombre de vecteurs, la plupart de la variance n'est pas très faible et peut même être bruit. Ainsi, un algorithme comme ALS trouve ces quelques vecteurs qui représentent la plus grande partie de l'étendue des données. Par conséquent, les «caractéristiques» peuvent être considérées comme les principaux modes de variance dans les données ou, en d'autres termes, les archétypes pour décrire comment un élément diffère d'un autre.

Notez que la factorisation PQ dans les recommandations repose sur l'abandon de fonctionnalités insignifiantes pour obtenir une compression potentiellement énorme des données. Ces caractéristiques insignifiantes (celles qui représentent très peu de variance dans l'entrée utilisateur/items) peuvent être abandonnées car elles sont souvent interprétées comme du bruit et, dans la pratique, donnent de meilleurs résultats pour être rejetées.

Pouvez-vous trouver des motifs cachés; sûr. Les nouveaux vecteurs objets et utilisateurs plus petits mais denses peuvent être traités avec des techniques comme le clustering, KNN, etc. Ils sont juste des vecteurs dans un nouvel "espace" défini par les nouveaux vecteurs de base - les nouvelles axiomes. Lorsque vous voulez interpréter le résultat de telles opérations, vous devrez les transformer en article &.

L'essence de l'ALS (factorisation matricielle PQ) est de transformer le vecteur de caractéristiques de l'utilisateur en espace d'items et de les classer selon les poids des items. Les articles les mieux classés sont recommandés.