Je suis intéressé à faire de la mise en grappe de documents, et en ce moment j'envisage d'utiliser TF-IDF pour cela. Si je ne me trompe pas, TF-IDF est particulièrement utilisé pour évaluer la pertinence d'un document pour une requête. Si je n'ai pas de requête particulière, comment puis-je appliquer tf-idf au clustering?tf-idf: est-ce que je comprends bien?
Répondre
Pas exactement en fait: tf-idf vous donne la pertinence d'un terme dans un document donné.
Vous pouvez donc utiliser parfaitement pour votre cluster par calculer une proximité qui serait quelque chose comme
proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j))
pour chaque terme t à la fois dans le document i et j doc.
Pour le regroupement de documents. La meilleure approche consiste à utiliser l'algorithme k-means. Si vous savez combien de types de documents vous avez, vous savez ce que k est.
Pour le faire fonctionner sur des documents:
a) disent choisir le document initial k au hasard.
b) Affectez chaque document à un cluser en utilisant la distance minimale pour un document avec le cluster.
c) Une fois les documents affectés au cluster, créez de nouveaux documents en tant que cluster en prenant le centroïde de chaque cluster.
Maintenant, la question est
a) Comment calculer la distance entre les 2 documents: Son rien similitude cosinus des termes de documents avec groupe initial. Les termes ici ne sont rien d'autre que TF-IDF (calculé plus tôt pour chaque document)
b) Le centre devrait être: somme de TF-IDF d'un terme donné/non. de documents. Faites, ceci pour tous les termes possibles dans un cluster. Cela vous donnera d'autres documents en n dimensions.
Espérons que c'est utile!
TF-IDF sert un but différent; sauf si vous avez l'intention de réinventer la roue, vous êtes mieux d'utiliser un outil comme Carrot. Googling pour le regroupement de documents peut vous donner de nombreux algorithmes si vous souhaitez en implémenter un seul.
Quelle est la différence entre TF-IDF et le clustering? Comment allez-vous regrouper les documents texte? – MonsterMMORPG
- 1. Est-ce que je comprends Ajax correctement?
- 2. Erreur d'espace de noms Metro & StreamBuffer - est-ce que je comprends bien?
- 3. Confirmer que je comprends la matrice Déterminants
- 4. Problèmes CSS que je ne comprends pas
- 5. Comment est-ce que je comprends ce que cela signifie?
- 6. Morphologie mathématique - Erosion. Est-ce que je comprends mal?
- 7. options.fetch. Je ne comprends pas
- 8. MySQLSyntaxErrorException bien que tout semble bien (Hibernate)
- 9. Je ne comprends pas std :: tr1 :: unordered_map
- 10. Je ne comprends pas Domaines d'application
- 11. Je ne comprends pas comment utiliser LINQ
- 12. urlrewriter.net/C#/Je ne comprends pas
- 13. Je ne comprends pas HQL rejoint
- 14. Je ne comprends pas le programme
- 15. PLINQ Exception d'agrégat Je ne comprends pas
- 16. Tests unitaires - Est-ce que je le fais bien?
- 17. débogueur Xcode, je ne comprends pas ce
- 18. AVL Tree Code - Je ne comprends pas
- 19. Je ne comprends pas getNextIncludedTime() dans Quartz
- 20. Méthode d'aide simple - Est-ce que je le fais bien?
- 21. HTTP POST Bien que C#
- 22. Qu'est-ce que je ne comprends pas sur le fonctionnement de Html.TextBoxFor?
- 23. objectif-c délégués et conception d'événements (je ne comprends pas)
- 24. Spécialisation Java Program - Qu'est-ce que c'est? Je ne comprends pas
- 25. Est-ce que je comprends correctement le comportement de Spring @Transactional?
- 26. Une chose que je ne comprends pas à propos de javascript discret
- 27. Flash: Est-ce que je ne comprends absolument pas l'écoute d'événements?
- 28. Je ne comprends pas vraiment ce que les paramètres pour la construction de tcp :: resolver :: query
- 29. Est-ce qu'un ORM s'intègre aux applications existantes ou est-ce que je ne comprends pas?
- 30. Vous avez une question que je ne comprends pas, quelqu'un peut-il donner un sens?
peut vous aider sur ce http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf –
permet donc dire que j'ai 3 documents comme celui-ci {1.1, 0, 3,3, 4} {0, 2, 0, 3} {1, 1, 1, 1} et leur centroïde est {2.1/3, 3/3, 4.3/3, 8/3}, n'est-ce pas? – MonsterMMORPG