2016-03-09 1 views
1

Salut, j'ai un ensemble de données sous cette forme:une colonne lors de l'utilisation kmeans avec cornac

12347,23.75580119032886 
12348,57.97548386358446 
12349,24.076027347616954 
12350,19.670588100657742 
12352,16.267473592256245 

où la première colonne est l'ID d'un utilisateur et le second est la valeur de ses achats . J'utilise l'algorithme KMeans avec mahout pour diviser l'ensemble de données en 3 groupes. Mon problème est que la colonne Id est utilisée donc la sortie est erronée. Y at-il un moyen d'ignorer la première colonne et de faire le clustering seulement sur le second? Merci.

Répondre

0

Utilisez un travail de réduction de la carte pour mapper les données de manière appropriée.

+0

Merci pour votre réponse, j'ai ajouté une fonction pour mapper les données après le regroupement pour faire correspondre les valeurs en cluster avec des ID. – zaher