J'utilise le paquet tm pour nettoyer un Corpus Twitter. Toutefois, le package est incapable de nettoyer les émoticônes.supprimer les émoticônes dans R en utilisant le paquet tm
Voici un code répliquée:
July4th_clean <- tm_map(July4th_clean, content_transformer(tolower))
Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is encircling the globes ������������������ july4thweekend July4th FourthOfJuly IndependenceDay NotAvailableOnIn' in 'utf8towcs'
quelqu'un peut me diriger dans la bonne direction pour supprimer les émoticônes en utilisant le package tm?
Merci,
Luis
Votre exemple ne montre pas clairement ce que vous souhaitez éliminer. Voulez-vous éliminer les sous-chaînes qui contiennent plusieurs signes de ponctuation consécutifs comme :-) et (-_-) ou essayez-vous d'éliminer les caractères Unicode impairs comme ☺ et ❀? – G5W
Vous avez raison. J'ai supposé que c'était un ou quelque chose de similaire. – Luis
Je suis un R débutant. Savez-vous comment je pourrais vérifier ce tweet particulier? J'imagine que vous utilisez le [] mais pas sûr si la fonction ou toute autre partie du code. – Luis