2017-10-10 9 views
0

Je suis un débutant dans R. J'ai essayé de lire un fichier CSV comme celui-ci.Lire un fichier CSV et le marquer.

tweets <- read.csv("tweets.csv") 

et je dois être en mesure de supprimer tous les ponctuations, convertir en minuscules, supprimer les numéros & mots d'arrêt & espaces blancs de la « tweets » trame de données sans avoir à le convertir en un corpus ou quelque chose. Rien d'extraordinaire juste en l'enlevant. Y a-t-il une bibliothèque/fonction qui pourrait aider à résoudre ce problème?

+0

lecture d'un fichier CSV, puis le traitement/nettoyage, il y a différentes étapes. Je suggère de diviser ceci en deux questions, une pour lire le fichier CSV si cela vous donne des problèmes (s'il vous plaît partager des messages d'erreur, et peut-être un échantillon du fichier) et une autre question sur le nettoyage (encore une fois ce que vous avez essayé). – Gregor

+0

Si vous avez lu le fichier CSV avec succès, ne le mentionnez plus, dites simplement "J'ai un cadre de données que je dois nettoyer". Mais montre encore ce que tu as essayé. En recherchant la balise R pour ["supprimer la ponctuation" (cliquez pour le lien)] (https://stackoverflow.com/search?q=%5Br%5D+remove+punctuation) et en essayant certains de ce que vous trouvez serait un bon début . Les requêtes d'outil/paquet/bibliothèque sont hors sujet. – Gregor

+0

J'ai essayé mais je ne travaille pas. La plupart des autres fonctions que je trouve en ligne font également la même chose. tw [] <- lapply (tw, fonction (x) { if (is.list (x)) { lapply (x, fonction (y) { tolower (gsub ("[.,]", "", y)) }) } else { tolower (gsub ("[.,]", "", x)) } }) tw Je reçois ceci: $ tolower.as.matrix.tw .. [1] "" "" –

Répondre

0

lecture partie de csv est ce que vous avez défini

tweets <- read.csv("tweets.csv") 

Cependant, pour faire face aux ponctuations, espaces blancs l'autre approche, sauf en utilisant corpus est en utilisant des expressions régulières, mais qui a une application limitée car il n'est pas générique à tous

C'est la raison pour laquelle nous préférons corpus car il peut devenir plus facile d'appliquer à différentes sources

+0

Merci beaucoup pour cela. A été capable de le faire. –