je suis nouveau à mahout.mahout collaboration-filtrage entrée binaire jeu de données
J'ai déjà utilisé l'algorithme basé sur des items de mahout avec une mesure de similarité de vraisemblance. J'ai lu dans les threads passés qu'il est préférable d'utiliser la similarité de loglikelihood quand le recommender traite les valeurs binaires (comme ou non). Je lis aussi que le mahout utilise trois valeurs (comme, n'aime pas, n'existe pas). Donc, je suis un peu confus sur le format du fichier de jeu de données en entrée.
Est-ce que le format de fichier d'entrée doit être comme ça?
userId, itemID
où la préférence par défaut est 1?
Je voudrais savoir s'il existe un moyen de mettre les informations d'aversion dans l'ensemble de données.
J'excepte par exemple le fichier de jeu de données d'entrée, quelque chose comme ceci:
userid, itemid, binaryPreference 1, 15, 1,0
2, 35, 0
1, 25 , 1,0 ......
Aidez-moi s'il vous plaît! Merci d'avance!