2010-03-21 3 views
4

J'ai construit un agrégateur de contenu et j'aimerais ajouter un nuage de tags représentant les tendances actuelles.Façon intelligente de construire un nuage d'étiquettes? - Python

Malheureusement c'est assez complexe, car je dois rechercher les mots clés qui représentent le contexte de chaque article.

Par exemple, des mots tels que je, était, le, étonnant, belle ont aucun rapport avec le contexte.


Aide serait grandement appréciée! :)

Répondre

9

Utilisez NLTK, et en particulier son mots vides corpus:

En plus des mots de contenu réguliers, il est une autre classe de mots arrêt appelé mots qui remplissent d'importantes fonctions grammaticales, mais sont peu susceptibles de être intéressant par eux-mêmes. Ceux-ci comprennent les prépositions, les compléments et les déterminants . NLTK est livré avec le corpus Stopwords, une liste de 2400 mots d'arrêt à travers 11 différentes langues (y compris l'anglais).

+0

@Alex: merci pour la réponse géniale! Mais est-ce que ceci peut traiter des adjectifs tels que ** bon ** ** grand ** etc ...? – RadiantHex

+2

@Radiant, les adjectifs ne sont pas des mots vides, car ils transmettent un sens - par exemple, "The Great Wall" est un mur très spécifique et long en Chine, tandis que "The Wall" est un album Pink Floyd - etc. voulez sauter les adjectifs (une décision douteuse), utilisez NLTK pour faire des "parties de discours", par http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk- part-1/(lire également les parties 2 et 3 bien sûr). –

2

NLTK peut vous aider à analyser le contenu afin de choisir les termes pertinents.

Questions connexes