Je suis familier avec l'utilisation de la bibliothèque tm pour créer un tdm et compter les fréquences des termes.Text Mining - Count Fréquences de phrases (plus d'un mot)
Mais ces termes sont tous à un mot.
Comment peut-on compter le nombre de fois qu'une phrase composée de plusieurs mots apparaît dans un document et/ou un corpus?
EDIT:
J'ajoute le code que je dois maintenant améliorer/clarifier mon poste.
C'est assez code standard pour construire une matrice terme-document:
library(tm)
cname <- ("C:/Users/George/Google Drive/R Templates/Gospels corpus")
corpus <- Corpus(DirSource(cname))
#Cleaning
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeWords, c("a","the","an","that","and"))
#convert to a plain text file
corpus <- tm_map(corpus, PlainTextDocument)
#Create a term document matrix
tdm1 <- TermDocumentMatrix(corpus)
m1 <- as.matrix(tdm1)
word.freq <- sort(rowSums(m1), decreasing=T)
word.freq<-word.freq[1:100]
Le problème est que cela renvoie une matrice de seul mot termes, par exemple:
all into have from were one came say out
397 390 385 383 350 348 345 332 321
Je veux être capable de rechercher des termes multi-mots dans le corpus à la place. Ainsi, par exemple, "vient de" au lieu de simplement "venu" et "de" séparément.
Merci.
S'il vous plaît lire les informations sur [comment poser une bonne question] (http://stackoverflow.com/help/how-to-ask) et comment donner un [exemple reproductible] (http: // stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example/5963610). Cela rendra beaucoup plus facile pour les autres de vous aider. – Jaap