2016-09-13 1 views
0

j'ai eu un test et un ensemble de données de formation qui devrait être utilisé pour la mesure de similarité de chaîne. Ici, j'ai donné quelques lignes de l'ensemble de données,en utilisant le coefficient Jaccard pour mesurer la similarité des chaînes

Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False 
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False 
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False 


The data file has 50 entries of the form 
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING 

SUJET - Twitter le sujet

TWEET_SENT_1 – Tweet sentence 1 
TWEET_SENT_2 – Tweet sentence 2 
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator 

Nous devons diviser l'ensemble de données en deux: ensemble de formation (35 échantillons) et un ensemble de test (15 échantillons) et doivent utiliser l'ensemble d'apprentissage pour le réglage des paramètres des algorithmes. Et tester avec l'ensemble de test en utilisant le meilleur paramètre réglé.

Si l'algorithme est Coefficient Jaccard

comment puis-je effectuer cette tâche? Quelqu'un peut-il s'il vous plaît laissez-moi savoir l'approche que je peux utiliser.

Répondre

0

similitude Jaccard est une mesure de la façon dont deux ensembles (de n-grammes dans votre cas) sont similaires. Il n'y a pas de "réglage" à faire ici, sauf pour le seuil à partir duquel vous décidez que deux chaînes sont similaires ou non.

Par exemple, si vous avez 2 cordes abcde et abdcde il fonctionne comme suit:

ngrams (n=2) : 'abcde' & 'abdcde' 
    ab bc cd de dc bd 
A 1 1 1 1 0 0 
B 1 0 1 1 1 1 

J (A, B) = (A∩B)/(∪ B)

J (A, B) = (3/6) = 0,5

Il existe également la distance Jaccard qui capte la différence entre deux ensembles, et est calculée en prenant one moins le coeeficient Jaccard (dans ce cas, 1 - 0.5 = 0.5)

Alors, pour problème que vous, j'utiliser la formation prévue avec les étiquettes afin de définir le seuil approprié pour lequel vos chaînes sont considérés comme similaires/dissemblables.