J'ai le code ci-dessous pour créer des textes propres pour mon analyse de sentiment Twitter. Je veux ajouter une autre ligne pour supprimer certains mots que je ne veux pas inclure dans cette analyse comme "merde", "malade", etc. Quelqu'un pourrait-il s'il vous plaît des conseils comment le faire?R - Analyse de sentiment - Comment supprimer certains mots
tweets <- searchTwitter("iPhone", n=1500, lang="en")
txt <- sapply(tweets, function(x) x$getText())
txt <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", txt)
txt <- gsub("@\\w+", "", txt)
txt <- gsub("[[:punct:]]", "", txt)
txt <- gsub("[[:digit:]]", "", txt)
txt <- gsub("http\\w+", "", txt)
txt <- gsub("[ \t]{2,}", "", txt)
txt <- gsub("^\\s+|\\s+$", "", txt)
Ryo .. Je suppose que vous pourriez avoir lu le blog: https://mkmanu.wordpress.com/2014/08/05/sentiment-analysis-on-twitter-data-text-analytics-tutorial/ –
Vous pouvez vectoriser 'gsub'. Consultez [cette réponse sur 'Remplacer plusieurs arguments avec gsub'] (http://stackoverflow.com/a/15254254/3560695). Cela simplifie également votre code. – Therkel