2017-10-11 10 views
1

en utilisant la programmation R, j'ai besoin de prendre des jetons ngram = 2 à partir d'un fichier.prendre des jetons à partir de la même ligne dans la programmation r

le problème est qu'il combine les lignes, et quelques jetons a une partie à la fin de la ligne et l'autre partie au début de la ligne suivante

Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 

dans les emplois de fichiers i ont les deux premiers lignes:

it architect 

it helpdesk support agents 

i obtenir des jetons comme:

it architect 
architect it 
it helpdesk 
and so on .... 

ce qu'il faut faire pour ne pas se rendre à Kens comme "l'architecte il"

i veulent tokenizer chaque ligne séparément

Répondre

0

Ajoutez juste collapse = FALSE dans votre unnest_tokens:

library(tidytext) 
library(dplyr) 

jobs %>% 
    unnest_tokens(ngram, POSITION, token = "ngrams", n = 2, collapse = FALSE) 

Résultat:

   ngram 
1  it architect 
2  it helpdesk 
2.1 helpdesk support 
2.2 support agents 

N'oubliez pas de convertir votre chaîne de caractère à caractère s'il s'agit d'une variable de facteur, sinon unnest_token vous rangez une erreur.

données:

jobs = data.frame(POSITION = c("it architect", "it helpdesk support agents"), stringsAsFactors = FALSE)