J'ai les deux textes suivants:Comment calculer la similarité de deux textes avec Jaccard similitude de deux sac via MinHash?
text0 = "AAAAAAAAAAAA";
text1 = "AAAAABAAAAAA";
J'utilise 4 bardeaux. Ainsi, text0 = {AAAA}, text1 = {AAAA, AAAB, AABA, ABAA, BAAA}. Ensuite, la similarité de Jaccard est sim = 1/5 = 0,2.
Je ne veux pas ce résultat. Parce que les deux textes semblent avoir des similitudes élevées.
Je veux utiliser la similarité de sac comme suit:
text0 = {AAAA, AAAA, AAAA, AAAA, AAAA, AAAA, AAAA, AAAA, AAAA},
text1 = {AAAA, AAAA, AAAB, AABA, ABAA, BAAA, AAAA, AAAA, AAAA}.
Si vous utilisez ces deux sacs, son similaire est sim = 5/9. C'est beaucoup plus élevé que 0.2.
Est-ce que MinHash peut faire celui-ci?
Merci beaucoup. Je vais jeter un coup d'oeil à ces deux documents. –
Faire des entrées uniques par numérotation est une mauvaise idée. Cela signifierait qu'aucune similitude n'est détectée entre "ABCDEFGHIJKLMNOPQRSTUVWXYZ" et "BCDEFGHIJKLMNOPQRSTUVWXYZ". –
Pour votre exemple, nous aurions text0 = {ABCD1, BCDE1, CDEF1, ...} text1 = {BCDE1, CDEF1, DEFG1, ...} qui ont clairement des éléments communs. – otmar