2017-03-14 4 views
1

Avant de mettre à jour ma version de RStudio, tout fonctionnait parfaitement. Avec la mise à jour, quelque chose a changé avec Document Term Matrix dans le paquet 'tm'. Je veux créer un dtm, mais avec des nombres. Par exemple, si je .csv avec une colonne comme indiqué ci-dessous:La matrice de termes de document ne gère pas les décimales des nombres

x 
1.01 
11.21 
123.35 
212.11 

Je veux les noms de colonnes dans ma matrice terme pour ressembler à ceci:

1.01 11.21 123.35 212.11 
1 0  0  0 
0 1  0  0 
0 0  1  0 
0 0  0  1 

Mais au lieu de cela ressemble à ceci:

123 212 
0 0 
0 0 
1 0 
0 1 

Voici le code qui permet de travailler:

corpus = Corpus(VectorSource(x)) dtm = DocumentTermMatrix(corpus) dtm_df = as.data.frame(as.matrix(dtm))

Merci à l'avance

+0

quelle version avez-vous? J'ai la version 1.0.136 et il semble fonctionner comme vous l'espériez. – Lucy

+0

J'ai aussi 1.0.136 ..... –

+0

En fait, les résultats sont: '123 212' comme noms de colonnes. Pas "1 11 123 212" comme mentionné précédemment @Lucy –

Répondre

1

Depuis le responsable du paquet 'tm' Ingo Feinerer:

Voici le code qui permet de travailler:

corpus = Corpus (VectorSource (x))

Essayez VCorpus() au lieu de Corpus().

dtm = DocumentTermMatrix (corpus) dtm_df = as.data.frame (as.matrix (DTM))

qui est très inefficace (depuis as.matrix() génère une représentation dense de la matrice de document-terme clairsemée).

Meilleures salutations, Ingo