2009-05-04 9 views
3

Je développe un script qui extrait les messages de l'archive des messages d'un groupe meetup.com particulier dont je suis membre - http://www.meetup.com/opencoffee/messages/archive/Catégorisation automatique de contenu

L'idée est d'ajouter dynamiquement à ces site wordpress et permettre aux gens de rechercher des messages, des messages d'étiquette automatique, etc.

Le problème que j'ai est de savoir comment catégoriser automatiquement ces messages. Je serais ravi d'avoir des idées et des idées sur la meilleure façon d'y parvenir et quelle serait la manière la plus efficace de programmer cela.

Option 1

Trouver une source de balises par domaine tels que la finance, la technologie, les affaires, etc. en utilisant l'API délicieux et trouver des tags liés par sujet: -

http://delicious.com/tag/finance

http://delicious.com/tag/technology

Si un message contient ces balises, le message est affecté à la catégorie correspondante.

Je crois que cela pourrait fonctionner, mais je ne suis pas sûr de la méthode la plus efficace de numériser le message pour ces étiquettes.

Option 2

sites Trouvez représentatifs des catégories dont j'ai besoin, comme ft.com, l'économiste des finances etc, etc pour la technologie TechCrunch et ensuite déterminer ce que les balises sont utilisées par les gens pour marquer ces sites et déterminez par défaut que ces tags correspondent à la manière dont les gens interagissent avec ces sites et leur pile de contenu.

Option 3

transmettre l'URL de message à http://semanticproxy.com/ (partie du projet Reuters Calais) ou utiliser l'API ouverte Calais. C'est ce que j'ai essayé mais sans grand succès car la profondeur variable du contenu n'est pas toujours suffisante pour renvoyer une taxonomie significative.

Voici un exemple de message que j'analysés et traités par l'calais api: -

Original Message

http://www.meetup.com/opencoffee/messages/6045615/

Calais Résultat

http://www.mashinteractive.com/opencoffee/calais.php

RÉSUMÉ

Donc c'est à peu près tout. J'aimerais avoir des idées et des idées sur la méthodologie et des conseils sur la meilleure façon d'aborder la numérisation des messages pour les options 1 et 2.

Il y a environ 1 700 messages à ce jour et je suppose que je peux avoir 10 catégories avec chacune la catégorie étant définie par 20 ou 30 étiquettes.

Si quelqu'un voudrait aider à développer un plugin Wordpress ou une classe pour ce faire, je serais plus qu'heureux de vous avoir à bord. Gardez à l'esprit que je ne suis pas un programmeur, je me contente de bricoler et de faire semblant d'en être un.

Merci à l'avance

PDG Jonathan

Foule Personnes

Répondre

1

Vous pouvez consulter Zemanta, qui dispose d'outils et plugins (y compris Wordpress) pour le contenu de l'auto-étiquetage, et aussi un regard sur Common Tag, qui est un vocabulaire pour exprimer des tags sur du contenu en utilisant RDFa, un standard web sémantique actuellement indexé par certains moteurs de recherche.

Questions connexes