2017-08-01 9 views
0

J'utilise la méthode this exactement, mais quand j'essaie de spécifier juste anglais avec lang = "en" et toutes les autres variations de cela que je pouvais penser ne fonctionnent pas. C'est ce que je mets (même avec des mots-clés pour le limiter) et ça ne me donne toujours pas seulement de l'anglais. J'ai essayé avec et sans mots-clés. J'essaie de construire un corpus de 200 000+ de recherche consultable en anglais seulement pour un projet de recherche et je ne veux pas passer en revue autant de Tweets à la main. Des idées?Twython n'important pas seulement les Tweets en anglais?

>>> from nltk.twitter import Twitter 
>>> tw = Twitter() 
>>> tw.tweets(keywords='Delicacy, reptile, death, hold, dark, column, gifted, surgeon, brave, fashion, pearl, diamond, bent, sparkle, present, missing, shadow, holiday, glide, scanner, luster, immunity, devour, discipline, barbaric, fortunate, heart, puzzle, ache, crystal', 
     limit=10000, lang="en", to_screen=False) 
Writing to /Users/rhiannalavalla/twitter-files/tweets.20170521-235221.json 
Written 10000 Tweets 

Répondre

0

L'option lang est passée au twitter search API, de sorte que vous vous demandez tweets "anglais". Mais avez-vous utilisé Twitter? Vous n'avez pas à déclarer la langue de chaque tweet, donc twitter ne peut pas restreindre vos résultats avec précision. L'option lang correspond évidemment au choix de langue des auteurs pour leur interface utilisateur, et non à la langue des tweets individuels. Pour restreindre vos résultats aux tweets en anglais, recherchez des hashtags et/ou des identifiants d'utilisateurs susceptibles d'intéresser uniquement les anglophones (les détails dépendront de la raison pour laquelle votre corpus est utilisé). Alternativement (ou peut-être en plus), vous pouvez essayer un algorithme d'identification automatique des langues pour filtrer les tweets suspects. Le nltk est livré avec le corpus langid de statistiques de trigrammes de langue, que vous pouvez utiliser pour former un module de reconnaissance.