j'ai eu un test et un ensemble de données de formation qui devrait être utilisé pour la mesure de similarité de chaîne. Ici, j'ai donné quelques lignes de l'ensemble de données,en utilisant le coefficient Jaccard pour mesurer la similarité des chaînes
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
SUJET - Twitter le sujet
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
Nous devons diviser l'ensemble de données en deux: ensemble de formation (35 échantillons) et un ensemble de test (15 échantillons) et doivent utiliser l'ensemble d'apprentissage pour le réglage des paramètres des algorithmes. Et tester avec l'ensemble de test en utilisant le meilleur paramètre réglé.
Si l'algorithme est Coefficient Jaccard
comment puis-je effectuer cette tâche? Quelqu'un peut-il s'il vous plaît laissez-moi savoir l'approche que je peux utiliser.