Je souhaite classer 100 documents en fonction de leur similarité. Par exemple 10 documents seront similaires disent (A, A ', A' ', A' '', ...) et un autre ensemble de 10 documents pourrait être similaire dit (B, B ', B' ', B' ' ', ...). Maintenant, les documents doivent être classés comme A, A '', A '' ', ..., B, B', B '' ', ... et ainsi de suite.Organisation des documents basée sur la similarité à l'aide de TF-IDF
La statistique de similarité est basée sur l'utilisation de mots. Après le classement, le cas d'utilisation est d'organiser les documents pour la lecture afin que des documents similaires soient lus ensemble comme A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. Puis-je utiliser TF-IDF pour atteindre ce classement? Y a-t-il une bibliothèque C pour cela?
1) La métrique de similarité est basée sur l'utilisation de mots. 2) Non, un document ne peut apparaître qu'une seule fois. Après le classement, le cas d'utilisation est d'organiser les documents pour la lecture afin que des documents similaires soient lus ensemble comme A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. – Hemanthkumar