Je crée une matrice de terme de document avec le paquet tm dans R, mais certains des mots de mon corpus se perdent quelque part dans le processus.DocumentTermMatrix dans le paquet tm ne retourne pas tous les mots
Je vais expliquer avec un exemple. Disons que j'ai ce petit corpus
library(tm)
crps <- " more hours to my next class bout to go home and go night night"
crps <- VCorpus(VectorSource(crps))
Lorsque j'utilise DocumentTermMatrix()
du tm-paquet, il retournera ces résultats:
dm <- DocumentTermMatrix(crps)
dm_matrix <- as.matrix(dm)
dm_matrix
# Terms
# Docs and bout class home hours more next night
# 1 1 1 1 1 1 1 1 2
Cependant, ce que je veux (et attendu) est:
# Docs and bout class home hours more next night my go to
# 1 1 1 1 1 1 1 1 2 1 2 1
Pourquoi DocumentTermMatrix()
ignore les mots "mon", "aller" et "à"? Existe-t-il un moyen de contrôler et de réparer cette fonction?
Je suppose que vous utilisez le paquet 'tm'? Quel genre d'objet est 'crps'? Comment avez-vous obtenu 'crps'? Avez-vous utilisé quelque chose comme 'crps <- Corpus (VectorSource (some_text_string))'? –
Oui j'ai utilisé 'crps <-VCorpus (VectorSource (My_text))' –