2017-09-29 1 views
0

en utilisant la programmation en R J'ai affaire à un fichier texte qui contient des mots comme (C#, C++, net) à partir des annonces d'emplois, quand je le convertis en jetons. #, ++ et le point sont supprimés. comment puis-je les conserver dans les jetons qui en résultent?comment conserver (, # symboles) dans les jetons en rogrammation

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE) 

Répondre

1

Le problème est l'argument token = "words", qui se divise en caractères non-mot (en utilisant probablement l'expression rationnelle \\W+). Cette fonction jette les délimiteurs, donc afin de garder ces caractères, vous devrez utiliser un autre argument que "words". Vous pouvez définir votre propre regex de séparation avec token = "regex" et quelque chose comme ceci:

unnest_tokens(word, 
       REQUIREMENTS, 
       token = "regex", 
       to_lower = TRUE, 
       pattern = "\\s+") # split on whitespace rather than non-word elements 

De cette façon, you can define whatever regex you need pour personnaliser la façon dont le texte est segmenté.

+0

merci, très utile –