J'utilise la fonction textcnt()
du package tau
pour obtenir bigrams comme suit:Est-il possible de maintenir l'ordre des ngrams dans la sortie de la fonction textcnt dans R?
sentence <- "A sample sentence in English for testing purpose"
english <- textcnt(sentence, method = "string", n=2, tolower = FALSE)
bigrams retournés sont dans l'ordre alphabétique, comme ceci:
A sample English for for testing in English sample sentence sentence in testing purpose
Cependant, je suis à la recherche d'une solution qui pourrait renvoie les bigrams dans l'ordre tel qu'il apparaît dans la phrase. Pour être plus exacte la sortie désirée est la suivante:
A sample sample sentence sentence in in English English for for testing testing purpose
S'il est impossible avec textcnt()
est-il une alternative à acheive la sortie désirée?
Une alternative: 'bibliothèque (tidytext); data.frame (phrase)%>% unnest_tokens (ngram, phrase, jeton = 'ngrammes', n = 2) ' – alistaire