0

Je cherche une mesure de similarité (comme l'index de Jaccard) mais je veux utiliser des similitudes connues entre des objets dans l'ensemble, et peser les connexions par les abondances d'items. Ces similitudes connues sont des scores entre 0 et 1, 1 indiquant une correspondance exacte.Ensemble Mesure de similarité avec similitudes et abondance d'éléments connus

Par exemple, considérons deux ensembles:
SET1 {A, B, C} et SET2 {A 'B', C '}

Je sais que
{A, A'}, { B, B '}, {C, C'} ont chacun une similitude d'item de 0.9. Par conséquent, je m'attendrais à ce que la similarité de SET1 et SET2 soit relativement élevée.

Un autre exemple serait: considérer deux ensembles SET1 {A, B, C} et {SET2 A, B 'C', D, E, F, ....., Z}. Bien que les correspondances entre les trois premiers éléments soient plus élevées que dans le premier exemple, ce score devrait probablement être inférieur en raison de la différence de taille (comme dans Jaccard).

Un autre problème ici est de savoir comment utiliser les abondances comme poids, mais je n'ai aucune idée de comment résoudre ce problème.

En général, j'ai besoin d'une mesure de similarité d'ensemble normalisée qui prenne en compte la similarité et l'abondance de cet élément.

Répondre

1

Corrigez-moi si je me trompe mais je suppose que vous avez besoin erreur de classement comme mesure de similarité. C'est la proportion de points qui sont regroupés différemment dans A 'et A après une mise en correspondance optimale des clusters. En d'autres termes, il s'agit de la somme échelonnée des éléments non diagonaux de la matrice de confusion, minimisée sur toutes les permutations possibles de lignes et de colonnes. Il utilise l'algorithme hongrois pour éviter les coûts de calcul élevés et pénalise différents nombres d'éléments dans les ensembles.

+0

Suivi rapide: que feriez-vous en cluster ici? Toute littérature que je peux lire? Notez que les éléments peuvent apparaître dans plusieurs ensembles. –

+1

Habituellement, lorsque vous travaillez avec un apprentissage non supervisé (clustering), la sortie de votre modèle est un jeu d'étiquettes et vous devez faire correspondre ces étiquettes prédites avec les bonnes (vérité de terrain). Si la vérité terrain est [A, A, B] et que la sortie du modèle est [1,1,2], cela signifie que le CE est 0 et que votre modèle est suffisamment robuste. –

+1

Il n'y a rien de lié au clustering lui-même, il est juste appliqué à lui comme mesure de similarité. Si vous avez plus d'une paire de sets, vous pouvez combiner le CE de chaque combinaison. Search for: Méthodes de comparaison des clusters sous-spatiaux par Anne Patrikainen [http://cis.legacy.ics.tkk.fi/annep/lisuri.pdf] –