2017-07-03 15 views
0

J'utilise le paquet tm pour nettoyer un Corpus Twitter. Toutefois, le package est incapable de nettoyer les émoticônes.supprimer les émoticônes dans R en utilisant le paquet tm

Voici un code répliquée:

July4th_clean <- tm_map(July4th_clean, content_transformer(tolower)) 
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs' 

quelqu'un peut me diriger dans la bonne direction pour supprimer les émoticônes en utilisant le package tm?

Merci,

Luis

+0

Votre exemple ne montre pas clairement ce que vous souhaitez éliminer. Voulez-vous éliminer les sous-chaînes qui contiennent plusieurs signes de ponctuation consécutifs comme :-) et (-_-) ou essayez-vous d'éliminer les caractères Unicode impairs comme ☺ et ❀? – G5W

+0

Vous avez raison. J'ai supposé que c'était un ou quelque chose de similaire. – Luis

+0

Je suis un R débutant. Savez-vous comment je pourrais vérifier ce tweet particulier? J'imagine que vous utilisez le [] mais pas sûr si la fonction ou toute autre partie du code. – Luis

Répondre

0

vous pouvez essayer cette fonction

iconv(July4th_clean, "latin1", "ASCII", sub="") 

question en double, see post

+0

Salut Zeyad, j'ai vu celui-là mais j'ai hésité à l'utiliser car le code était différent du code tm que j'utilisais. J'utilisais la fonction <- tm_map. – Luis

+0

vous devriez l'exécuter avant d'utiliser le paquet 'tm' –

0

Vous pouvez utiliser gsub pour se débarrasser de tous les caractères non-ASCII.

Texts = c("Let the stormy clouds chase, everyone from the place ☁ ♪ ♬", 
    "See you soon brother ☮ ", 
    "A boring old-fashioned message") 

gsub("[^\x01-\x7F]", "", Texts) 
[1] "Let the stormy clouds chase, everyone from the place " 
[2] "See you soon brother "         
[3] "A boring old-fashioned message" 

Détails: Vous pouvez spécifier des classes de caractères dans regex avec [ ]. Lorsque la description de la classe commence par ^ cela signifie tout sauf ces caractères. Ici, j'ai spécifié tout sauf les caractères 1-127, c'est-à-dire tout sauf l'ASCII standard et j'ai spécifié qu'ils devraient être remplacés par la chaîne vide.