Tout d'abord, merci de lire ma question.En Java - Regrouper des valeurs similaires
J'ai utilisé TF/IDF puis sur ces valeurs, j'ai calculé la similitude cosinus pour voir combien de documents sont plus similaires. Vous pouvez voir la matrice suivante. Les noms de colonne sont comme doc1, doc2, doc3 et les noms de lignes sont identiques à doc1, doc2, doc3 etc. Avec l'aide de la matrice suivante, je peux voir que doc1 et doc4 ont une similitude de 72% (0.722711142). C'est correct même si je vois les deux documents, ils sont similaires. J'ai 1000 documents et je peux voir chaque document freq. dans la matrice pour voir combien d'entre eux sont similaires. J'ai utilisé différents clusters comme k-means et agnes (hierarchy) pour les combiner. Il a fait des grappes. Par exemple Cluster1 a (doc4, doc5, doc3) car ils ont des valeurs plus proches respectivement (0.722711142, 0.602301766, 0.69912109). Mais quand je vois manuellement si ces 3 documents sont vraiment identiques, ils ne le sont PAS. :(Qu'est-ce que je fais ou devrais-je utiliser autre chose que le regroupement ??????
1 0.067305859 -0.027552299 0.602301766 0.722711142
0.067305859 1 0.048492904 0.029151952 -0.034714695
-0.027552299 0.748492904 1 0.610617214 0.010912109
0.602301766 0.029151952 -0.061617214 1 0.034410392
0.722711142 -0.034714695 0.69912109 0.034410392 1
PS: Les valeurs peuvent se tromper, il est juste pour vous donner une idée Si vous en avez. question s'il vous plaît ne pas demander Merci
un conseil? de l'aide?????????????????????? – user238384
question mineure: les solutions existantes à ce problème ne peuvent pas être appliquées ou pourquoi le développez-vous à partir de zéro? Mon sentiment dit que Lucene (ou Solr) aurait dû mettre en œuvre cela aussi ... – Karussell
Eh bien, ce que Lucene ou Solr faire. Je l'ai déjà fait. Maintenant, j'ai un fichier CSV mais ma question est différente. Si vous pouvez expliquer votre question. Je peux y répondre d'une meilleure manière – user238384