2017-09-16 12 views
0

J'ai environ 1140 termes dans trois documents (après suppression des termes fragmentés). Je veux avoir l'information sur les grappes. J'ai produit des groupes comme montré dans l'image ci-jointe mais je suis incapable de les lire. J'ai aussi essayé les groupes de k-mean mais le même problème persiste. Je ne m'intéresse pas tellement à tous les termes mais clairement définis que trois ou quatre groupes feraient le travail. J'ai utilisé tm package dans R pour l'exploration de texte.Meilleur dendrogramme de cluster pour la représentation de Cluster dans Text Mining dans R

Deuxièmement, je cherche aussi à trouver une association en termes de dans un seul document; pour cela, comment puis-je diviser un fichier texte en plusieurs fichiers texte, c'est-à-dire si mon fichier contient trois phrases: Doc: "Je m'appelle ABC, j'habite à XYZ, je suis cousin de TUV." Je voudrais le diviser en: Doc_1: Je m'appelle ABC. Doc_2: J'habite à XYZ. Doc_3: Je suis cousin de TUV. Donc j'ai trois lignes et colonnes de termes en dtm au lieu d'une ligne et d'une colonne de termes.

Cluster_Dendrogram_Plot1 et Another Format2

+0

Veuillez insérer l'image afin que nous puissions voir. Aussi, quel code avez-vous utilisé pour faire ce que vous décrivez? – lawyeR

+0

Cliquez sur les hyperliens (1 et 2) sur la dernière ligne: luster_Dendrogram_Plot1 Un autre format2 pour les images. Code que j'ai utilisé jusqu'à présent: d <- dist (t (dtms_1), méthode = "euclidien") fit <- hclust (d = d, méthode = "complète") bibliothèque (cluster) d <- dist (t (dtm_1), méthode = "euclidian") ajustement <- hclust (d = d, méthode = "complète") intrigue (ajustement, accrocher = -1) autres choses que j'ai essayées sont K moyenne regroupement, et la coupe l'arbre à une hauteur spécifique mais pas de solution. –

Répondre

2

Vous demandez plus d'une question. Je vais adresser votre premier. Il semble irréaliste de s'attendre à mettre 1140 chaînes dans votre graphique et s'attendre à voir quelque chose. Vous avez besoin d'un moyen d'être en mesure d'en voir un peu à la fois. Vous pouvez couper l'arbre et regarder des morceaux plus petits dans la partie inférieure de l'arbre pour contrôler combien vous voyez en même temps.

Voici un exemple. Même avec 150 points, il est difficile de voir ce qui se passe.

D = as.dendrogram(hclust(dist(iris[,1:4]))) 
plot(D) 

Full tree

Mais si vous coupez l'arbre, vous pouvez regarder les branches inférieures individuelles et comprendre cette partie.

Cuts = cut(D, 4) 
plot(Cuts$lower[[2]]) 

One Branch

Bien sûr, vous aurez besoin d'expérimenter un peu pour trouver de bons endroits pour couper votre arbre .

+0

Salut .... bien je ne suis pas très intéressé par tous les 1140 termes. Je m'intéresse uniquement aux informations sur les clusters, c'est-à-dire les termes d'un cluster particulier, qu'ils soient importants (contextuels par rapport au document étudié ou à l'étude) ou pas si importants. Donc même la connaissance des termes en grappe au lieu d'un dendrogramme servirait mon but. Pendant ce temps, j'ai décidé de diviser manuellement le fichier texte et de supprimer les termes clairsemés conduisant à un nombre inférieur de termes totaux et ensuite effectuer un regroupement qui avait produit un dendrogramme lisible. –