2012-11-23 3 views
0

I ont un grand ensemble de données avec l'utilisateur BINARY/éléments Matrice:données binaires Cluster

  1. J'ai besoin de regrouper les utilisateurs et les éléments. Est-il possible de les faire simultanément dans Mahout? Plus important encore, si j'utilise loglikelihood comme mesure de similarité, quels sont les algorithmes de clustering qui prendront en charge cette métrique de distance pour regrouper les données?

Répondre

1

Non, la mise en cluster par les utilisateurs et les éléments sont des processus distincts. Bien que dans l'esprit c'est exactement le même processus, juste appliqué deux manières différentes.

Si vous voulez des réponses plus spécifiques dans Mahout, vous devrez en dire plus sur les parties du code que vous utilisez car il y a plusieurs parties qui impliquent le clustering.

Il y a quelques éléments de regroupement agglomératifs dans le projet, qui fonctionnent pour n'importe quelle métrique de similarité. Les autres implémentations que je connais sont définitivement de la variété "k-means", en supposant un espace vectoriel continu et non des vecteurs sur {0,1}. Vous auriez besoin d'un algorithme de type k-medoids et je ne connais pas ce projet.

+0

Merci Sean, Pourriez-vous s'il vous plaît être plus précis sur les parties agglomératives de Mahout. Je suis dans la phase de conception et j'ai besoin de savoir si j'ai la matrice de similarité, ce qui serait un bon algorithme de clustering à utiliser en fonction de cette mesure pour regrouper les données. – user1848018

+0

Je pense à 'TreeClusteringRecommender', qui est un code ancien et non distribué que j'ai fait, et pas quelque chose que je recommanderais particulièrement à quiconque. Mais comme ce n'est pas basé sur le centroïde, vous avez seulement besoin d'une métrique de similarité. En général, la réponse à votre problème est «k-medoids». –

+0

Merci Sean, j'apprécie – user1848018