2016-02-23 1 views
-1

Je souhaite classer 100 documents en fonction de leur similarité. Par exemple 10 documents seront similaires disent (A, A ', A' ', A' '', ...) et un autre ensemble de 10 documents pourrait être similaire dit (B, B ', B' ', B' ' ', ...). Maintenant, les documents doivent être classés comme A, A '', A '' ', ..., B, B', B '' ', ... et ainsi de suite.Organisation des documents basée sur la similarité à l'aide de TF-IDF

La statistique de similarité est basée sur l'utilisation de mots. Après le classement, le cas d'utilisation est d'organiser les documents pour la lecture afin que des documents similaires soient lus ensemble comme A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. Puis-je utiliser TF-IDF pour atteindre ce classement? Y a-t-il une bibliothèque C pour cela?

Répondre

0

quelques questions:

  1. Quel type de mesure de similarité utilisez-vous?
  2. Un document peut-il apparaître dans A et B?

Une mesure que vous pouvez utiliser est les mots du document. Vous pouvez calculer TF-IDF pour chaque document, puis interroger les documents avec des phrases-clés.

E.g. si vous voulez trouver un ensemble de documents qui parlent de la programmation, vous pouvez rechercher tous les documents avec la requête:

programming code coding 

Et puis l'ensemble résultant seront des documents qui sont semblables par ces mots clés. Et il est possible que vous ayez les mêmes documents apparaissant dans chaque requête.

Je ne suis pas très sûr des bibliothèques C, mais en python vous pouvez utiliser textblob pour calculer facilement tf-idf. Vous pourriez probablement construire cela à partir de zéro.

+0

1) La métrique de similarité est basée sur l'utilisation de mots. 2) Non, un document ne peut apparaître qu'une seule fois. Après le classement, le cas d'utilisation est d'organiser les documents pour la lecture afin que des documents similaires soient lus ensemble comme A, A '', A '' ', ..., B, B', B '' ', ..., Z, Z ', Z' '. – Hemanthkumar