2014-09-06 2 views
0

Comme le titre dit tout, Voici le lien vers la classification spectrale Spectral clustering DocumentationDans la classification spectrale de cornac, quelle devrait être la valeur de l'élément diagonale matrice d'affinité

La première étape, il est d'extraire la matrice de similarité pour nos points de données . Quand il dit matrice de similarité, je suppose que la similarité entre les mêmes entités (utilisateurs, documents, etc.) devrait être 1 (par opposition à la matrice de distance, où il est 0).

Mais dans leur exemple, ils ont attribué un score à 0 pour les mêmes entités:

0 0,0

1,1 0

Ici, je suis un peu confus. Est-ce que quelqu'un, qui a travaillé sur le clustering spectral avant de m'aider à sortir ..

P.S .: J'ai ma propre approche pour calculer les scores de similarité, donc je ne veux pas utiliser dans les fonctions de mahout construit.

Merci à l'avance ..

+0

Tenez compte * pas * à l'aide Mahout. Je n'ai pas beaucoup confiance dans cet outil, en particulier il semble vraiment très lent. Après avoir été capable de battre le runtime Mahout sur un seul processeur avec un meilleur outil, j'ai presque abandonné Mahout. Ce n'est pas parce qu'il fonctionne sur Hadoop que c'est bon ou rapide. –

+0

(Mais à part ça, je crois que vous avez raison, et la valeur devrait être 1, ou tout ce que le noyau cède.Si il est artificiellement mis à 0, il ne devrait pas faire partie de la sortie.) –

+0

Thanks Anony- Moousse. En fait, tester le clustering spectral, avec différentes valeurs de graines. Mettre à jour le fil, une fois terminé –

Répondre

0

Je pense que nous devrions voir la matrice de similarité comme une extension de la matrice de contiguïté en théorie des graphes: 1 de si deux noeuds sont adjacents, des 0 si elles ne sont pas. Dans votre cas, tous les nœuds sont adjacents et vous ponderez cette matrice d'adjonction par une matrice de similarité pour encoder l'information sur "combien deux observations sont adjuvantes?".

Puisque nous ne considérons pas un noeud à côté de lui-même à moins qu'il ne dispose d'une connexion à elle-même, la diagonale de la matrice de contiguïté est définie sur 0.

Questions connexes