4

Je suis intéressé à faire de la mise en grappe de documents, et en ce moment j'envisage d'utiliser TF-IDF pour cela. Si je ne me trompe pas, TF-IDF est particulièrement utilisé pour évaluer la pertinence d'un document pour une requête. Si je n'ai pas de requête particulière, comment puis-je appliquer tf-idf au clustering?tf-idf: est-ce que je comprends bien?

Répondre

4

Pas exactement en fait: tf-idf vous donne la pertinence d'un terme dans un document donné.
Vous pouvez donc utiliser parfaitement pour votre cluster par calculer une proximité qui serait quelque chose comme

proximity(document_i, document_j) = sum(tf_idf(t,i) * tf_idf(t,j)) 

pour chaque terme t à la fois dans le document i et j doc.

4

Pour le regroupement de documents. La meilleure approche consiste à utiliser l'algorithme k-means. Si vous savez combien de types de documents vous avez, vous savez ce que k est.

Pour le faire fonctionner sur des documents:

a) disent choisir le document initial k au hasard.

b) Affectez chaque document à un cluser en utilisant la distance minimale pour un document avec le cluster.

c) Une fois les documents affectés au cluster, créez de nouveaux documents en tant que cluster en prenant le centroïde de chaque cluster.

Maintenant, la question est

a) Comment calculer la distance entre les 2 documents: Son rien similitude cosinus des termes de documents avec groupe initial. Les termes ici ne sont rien d'autre que TF-IDF (calculé plus tôt pour chaque document)

b) Le centre devrait être: somme de TF-IDF d'un terme donné/non. de documents. Faites, ceci pour tous les termes possibles dans un cluster. Cela vous donnera d'autres documents en n dimensions.

Espérons que c'est utile!

+0

peut vous aider sur ce http://stackoverflow.com/questions/28642930/how-can-i-compute-mtf-idf –

+0

permet donc dire que j'ai 3 documents comme celui-ci {1.1, 0, 3,3, 4} {0, 2, 0, 3} {1, 1, 1, 1} et leur centroïde est {2.1/3, 3/3, 4.3/3, 8/3}, n'est-ce pas? – MonsterMMORPG

1

TF-IDF sert un but différent; sauf si vous avez l'intention de réinventer la roue, vous êtes mieux d'utiliser un outil comme Carrot. Googling pour le regroupement de documents peut vous donner de nombreux algorithmes si vous souhaitez en implémenter un seul.

+0

Quelle est la différence entre TF-IDF et le clustering? Comment allez-vous regrouper les documents texte? – MonsterMMORPG

Questions connexes