2011-01-10 3 views
1

Existe-t-il des approches, des algorithmes ou des outils fiables/déployés pour étiqueter le type de site Web en analysant certaines de ses pages Web?Classification du type de site Web à partir des pages Web

Ex: forums, blogs, sites PressRelease, nouvelles, E-Comm etc.

Je cherche des caractéristiques bien définies (règles statiques) à partir de laquelle il peut être déterminé. Si non, alors j'espère que le modèle Machine Learning peut aider.

Suggestions/Idées?

Répondre

3

Si vous approchez cela du point de vue de l'apprentissage machine, le classificateur Naive Bayes a probablement le plus grand rapport travail/gain. Une version de celui-ci est utilisée dans Winnow pour classer les articles de nouvelles.

Vous aurez besoin d'un ensemble de pages, chacune étiquetée avec la catégorie appropriée. Ensuite, vous extraire des mots ou d'autres éléments pertinents de chaque page et les utiliser comme caractéristiques

Dr.Dobbs a un article sur la mise en œuvre Naive Bayes

Questions connexes