0

Je suis supposé faire un service de recommandation de livre en utilisant MyMediaLite. Jusqu'ici j'ai rassemblé des livres du site Web en utilisant le crawler de Nutch et en stockant l'information dans hbase. Les problèmes sont que je ne comprends pas vraiment, comment tout cela fonctionne. Par exemple, je dois passer des données de test et des fichiers de données d'apprentissage, avec des paires d'identifiants d'utilisateur et une classification. Mais qu'en est-il des autres informations de livre, comme les catégories et les auteurs? Comment est-il possible de trouver des livres "similaires", par leurs informations etc, sans information sur l'utilisateur (jusqu'à présent)? Est-il possible de passer des données directement à partir de hbase, sans les stocker dans un fichier et ensuite dans le premier? Ou pour ce travail convient mieux à Apache Mahout ou LibRec?Service de recommandation d'article

Répondre

0

Les informations de classification des éléments utilisateur, souvent dans une matrice, constituent la base des algorithmes de filtrage collaboratif (utilisateur CF, élément CF, factorisation matricielle et autres). Vous utilisez les opinions d'autres personnes pour formuler des recommandations. Il n'y a pas de reconnaissance innée du contenu des articles eux-mêmes. Pour cela, vous aurez besoin d'un algorithme de filtrage basé sur le contenu ou d'une technique d'exploration de données. Ils sont souvent utilisés dans le scénario «démarrage à froid de l'utilisateur» que vous avez décrit: vous avez beaucoup d'informations sur les éléments mais pas sur les préférences d'un utilisateur en particulier. Commencez par réfléchir à votre objectif final et aux données dont vous disposez. En premier lieu, pensez à votre objectif final et aux données dont vous disposez. En fonction des besoins de votre produit et des données disponibles, vous pouvez choisir le bon algorithme pour vos objectifs. Je recommande fortement le cours RecSys sur Coursera pour en savoir plus: https://www.coursera.org/learn/recommender-systems. Il est enseigné par un chef de file dans le domaine.

+0

Plus tard, je vais recueillir des données sur l'utilisateur en utilisant Piwik. Et je suppose que pour obtenir des recommandations basées sur les auteurs/catégories, je dois utiliser des méthodes comme ItemAttributeKNN? Et merci pour la réponse! – eddga