J'ai environ 1140 termes dans trois documents (après suppression des termes fragmentés). Je veux avoir l'information sur les grappes. J'ai produit des groupes comme montré dans l'image ci-jointe mais je suis incapable de les lire. J'ai aussi essayé les groupes de k-mean mais le même problème persiste. Je ne m'intéresse pas tellement à tous les termes mais clairement définis que trois ou quatre groupes feraient le travail. J'ai utilisé tm package dans R pour l'exploration de texte.Meilleur dendrogramme de cluster pour la représentation de Cluster dans Text Mining dans R
Deuxièmement, je cherche aussi à trouver une association en termes de dans un seul document; pour cela, comment puis-je diviser un fichier texte en plusieurs fichiers texte, c'est-à-dire si mon fichier contient trois phrases: Doc: "Je m'appelle ABC, j'habite à XYZ, je suis cousin de TUV." Je voudrais le diviser en: Doc_1: Je m'appelle ABC. Doc_2: J'habite à XYZ. Doc_3: Je suis cousin de TUV. Donc j'ai trois lignes et colonnes de termes en dtm au lieu d'une ligne et d'une colonne de termes.
et
Veuillez insérer l'image afin que nous puissions voir. Aussi, quel code avez-vous utilisé pour faire ce que vous décrivez? – lawyeR
Cliquez sur les hyperliens (1 et 2) sur la dernière ligne: luster_Dendrogram_Plot1 Un autre format2 pour les images. Code que j'ai utilisé jusqu'à présent: d <- dist (t (dtms_1), méthode = "euclidien") fit <- hclust (d = d, méthode = "complète") bibliothèque (cluster) d <- dist (t (dtm_1), méthode = "euclidian") ajustement <- hclust (d = d, méthode = "complète") intrigue (ajustement, accrocher = -1) autres choses que j'ai essayées sont K moyenne regroupement, et la coupe l'arbre à une hauteur spécifique mais pas de solution. –