2016-10-29 4 views
0

J'utilise la fonction textcnt() du package tau pour obtenir bigrams comme suit:Est-il possible de maintenir l'ordre des ngrams dans la sortie de la fonction textcnt dans R?

sentence <- "A sample sentence in English for testing purpose" 
english <- textcnt(sentence, method = "string", n=2, tolower = FALSE) 

bigrams retournés sont dans l'ordre alphabétique, comme ceci:

A sample  English for  for testing  in English sample sentence  sentence in testing purpose 

Cependant, je suis à la recherche d'une solution qui pourrait renvoie les bigrams dans l'ordre tel qu'il apparaît dans la phrase. Pour être plus exacte la sortie désirée est la suivante:

A sample sample sentence sentence in in English English for for testing testing purpose  

S'il est impossible avec textcnt() est-il une alternative à acheive la sortie désirée?

+0

Une alternative: 'bibliothèque (tidytext); data.frame (phrase)%>% unnest_tokens (ngram, phrase, jeton = 'ngrammes', n = 2) ' – alistaire

Répondre

1

Essayez

library(tokenizers) 
tokenize_ngrams(sentence, n = 2L) 
# [[1]] 
# [1] "a sample"  "sample sentence" "sentence in"  "in english"  "english for"  "for testing"  "testing purpose"