2014-07-09 2 views
1

Comment les agrégateurs de nouvelles comme flipboard mettent leurs articles dans des catégories comme «politique», «business», etc ... J'ai cherché cela mais je ne trouve pas de résultats, j'imagine que cela pourrait être fait manuellement. .? des aliments est-il une base de données publique qui contient une liste de flux RSS par catégorie Sinon, comment est-ce accompliComment les agrégateurs de nouvelles RSS catégorisent-ils les données?

Répondre

1

Il peut être un processus complexe, en plusieurs étapes, mais en général:

  1. Marquez les données dans des paragraphes, des phrases et des mots http://nlp.stanford.edu/software/tokenizer.shtml est un exemple d'outil qui peut accomplir ceci http://alias-i.com/lingpipe/ est un autre exemple

  2. Une fois étiqueté, jetez des mots généraux non spécifiques (également appelés «mots d'arrêt»), tels que «a», «le», «ha», «lol», «omg», etc. Les tokenizers ont généralement des méthodes intégrées qui permettent de les identifier et de les éliminer.

  3. Identifiez n-grammes (mots qui vont ensemble). Par exemple, les mots "Bay" et "Area" sont deux mots, mais ils sont souvent considérés comme un seul mot "Bay Area". Vous devrez identifier les entités comme celle-ci pour les classer correctement.

  4. Regroupez les éléments restants par parties du discours. Cela peut être utile, par exemple, pour éliminer les verbes, les adverbes et n'utiliser que des noms et des adjectifs pour les classifications de vos catégories.

  5. Enfin, découpez et découpez vos données par catégorie.

Questions connexes