2012-03-13 2 views
0

Si j'utilise un algorithme basé sur la similarité tel que le score de corrélation pearson pour comparer deux vecteurs de caractéristiques et je veux connaître les dimensions/champs de caractéristiques qui sont très différents parmi les caractéristiques quel est l'algorithme à utiliser? J'utilise Mahout qui est une bibliothèque d'apprentissage automatique pour JavaTrouver des dimensions différentes dans un vecteur de caractéristiques dans Mahout

+0

Ce n'est pas vraiment une question de programmation, n'est-ce pas? – specialscope

+0

J'utilise Mahout qui est une bibliothèque d'apprentissage automatique en Java – seahorse

+0

Si vous voulez obtenir des commentaires ici, vous devriez le mentionner dans votre question et peut-être afficher le morceau de code sur lequel vous travaillez. – specialscope

Répondre

1

Eh bien, ce serait simplement la dimension dans laquelle les deux vecteurs différaient le plus - dans laquelle la valeur absolue de la différence des valeurs des vecteurs dans la dimension était plus grand. Est-ce vraiment tout ce que vous voulez dire ou cherchez-vous quelque chose de plus subtil?

+0

Ok, disons que j'ai fv1, fv2, fv3, fv4 et fv5 comme vecteurs de caractéristiques qui sont censés être très "similaires". Maintenant, pour le vecteur de caractéristiques 2 = fv2 (disons), j'ai besoin de trouver quelles dimensions sont gênantes ou ont une grande variation de la désimilarité par rapport aux autres dimensions. Pour cela, je veux comparer fv2 avec tous les autres vecteurs de caractéristiques et ensuite trouver la réponse. Donc, j'ai besoin de calculer la différence absolue moyenne entre tous les vecteurs ou y at-il une meilleure statistique? – seahorse

+1

La différence absolue par rapport à la moyenne est raisonnable; Je pourrais suggérer quelque chose de plus normalisé comme une valeur z - juste le nombre d'écarts-types de la valeur moyenne. –

Questions connexes