2017-04-14 2 views
0

Comment faire pour supprimer le hashtag, l'utilisateur mentionne & URL de tweet. Twitter4j bibliothèque (analyse de sentiment) ne fonctionne pas correctement avec ces mots de bruitComment faire pour supprimer le hashtag, les mentions d'utilisateurs et les URL de tweet. La bibliothèque Twitter4j (analyse de sentiment) ne fonctionne pas correctement avec ces mots parasites

Exemple: Tweet: Bonjour grand matin aujourd'hui #summermorning @evilpriest @holysinner https://goo.le/asxmo/dataload .......

devrait ressembler - Salut bonjour aujourd'hui summermorning

Y at-il une méthode ou un utilitaire disponible dans twitter4J lui-même ou nous avons besoin d'écrire les nôtres? S'il vous plaît guider.

+0

Vous devez écrire votre propre méthode – FeanDoe

Répondre

0

Utilisez des expressions régulières pour filtrer les #es avant d'analyser une phrase dans le pipeline d'analyse de sentiment! Utilisez ceci:

String withoutHashTweet = originalTweet.replaceAll("[#]", ""); 

donc "Bonjour grand matin aujourd'hui #summermorning @evilpriest @holysinner" devrait revenir: "Bonjour grand matin aujourd'hui summermorning @evilpriest @holysinner"

remplacer même le hachage dans le code avec @ pour enlever le signe respectif

0

Quelque chose comme ça:

let tweet = "@arthurlacoste check this link : http://lit.ly/hugeLink ! so #nsfw"; 

tweet = tweet.replace(/(?:https?|ftp):\/\/[\n\S]+/g, '') // remove links 
     //.replace(/\#\w\w+\s?/g, '') remove hashtags words 
     .replace('#', '') // remove hashtags only 
     .replace(/\@\w\w+\s?/g, ''); // remove mentions 

console.log(tweet); 

// output : "check this link : ! so nsfw"