2016-11-28 3 views
1

Je fais l'analyse des sentiments de données Twitter dans r. Mais avoir plus de tweets répétés dans les données. affecte-t-il le résultat?dans l'analyse des sentiments de données Twitter, retweets répétés infulence le résultat?

RT @Ananduvi: Supporterez-vous #BharathBandh aujourd'hui contre #demonetization ???

RT @Ananduvi: Supporterez-vous #BharathBandh aujourd'hui contre #demonetization ???

si oui! alors comment y faire face? Je veux enlever ces tweets de l'ensemble de données de Twitter.

text<- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", text) 

Ce code supprime uniquement le nom de la personne mais le tweet reste tel quel.

Je serai heureux si vous m'aidez.

+0

Certainement cela affectera le résultat. Nous pouvons vérifier l'identifiant du tweet associé à chaque tweet. Supprimer les ID en double. –

Répondre

0

Si vous avez des tweets répétés, cela faussera l'analyse! Avec l'API Twitter, vous avez les Tweets retournés au format JSON - vous devez traiter le champ "id" (ou mieux le champ "id_str") du Tweet comme identifiant unique et ne sélectionner que des instances uniques d'un "" id "dans vos analyses.

{"id": 123456789, "id_str": "123456789"} 

Si vous assurer que vous avez seulement une instance de chaque tweet calée sur le champ ci-dessus, vous éviterez ce problème.