en utilisant la programmation R, j'ai besoin de prendre des jetons ngram = 2 à partir d'un fichier.prendre des jetons à partir de la même ligne dans la programmation r
le problème est qu'il combine les lignes, et quelques jetons a une partie à la fin de la ligne et l'autre partie au début de la ligne suivante
Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2)
dans les emplois de fichiers i ont les deux premiers lignes:
it architect
it helpdesk support agents
i obtenir des jetons comme:
it architect
architect it
it helpdesk
and so on ....
ce qu'il faut faire pour ne pas se rendre à Kens comme "l'architecte il"
i veulent tokenizer chaque ligne séparément