2010-08-15 7 views
-2

Je dois d'abord obtenir des balises par programme (contrairement à ce qui est fait ici sur stackoverflow) à partir des titres et descriptions de mes messages. Je ne veux pas que les mots couramment utilisés apparaissent dans les mots-clés. Y a-t-il un moyen efficace de le faire? Après avoir obtenu de bonnes étiquettes, je voudrais les sauvegarder dans MySQL DB.Obtenir par programme des mots-clés (mots-clés) à partir des titres, des descriptions et des éléments associés

Maintenant, comment puis-je efficacement obtenir des publications liées à l'aide de ces balises créées automatiquement? Par exemple. Qu'est-ce qui est fait ici.

+0

Je n'ai pas besoin de fournir du code, je suis juste en train de travailler sur un algorithme ... avec le -1. putain –

+4

Votre question est extrêmement vague. Par exemple, vous n'indiquez pas le type d'application avec lequel vous travaillez. Sans certains détails, des termes tels que "tags", "posts", "keywords" n'ont aucun sens. –

+0

@ Jeff, je ne pourrais pas être un pro des étiquettes .... c'est exactement pourquoi je pose la question en premier lieu. afin que mes membres ne soient pas obligés de taper des étiquettes –

Répondre

4

Rechercher tf-idf. Vous recherchez des termes avec un score élevé tf-idf.

+0

@ Getr G, wow qui semble très compliqué, mais semble être le meilleur moyen. des moyens plus simples de le faire? comment cela se fait-il ici sur stackoverflow? sais-tu? –

+1

@Sir: c'est fait * manuellement * sur SO. Comme vous l'avez fait quand vous avez posé cette question, et comment je l'ai fait quand je viens de supprimer deux fausses étiquettes de votre question. – Shog9

+0

@ Shog9 je l'ai déjà DÉJÀ !!!!!!!!!!!!!!! En retard! –

2

Je déconseille d'utiliser cette méthode. Vous pouvez l'utiliser pour suggérer étiquettes, mais le marquage automatique sera très, très difficile à mettre en œuvre correctement et avec précision. L'une des raisons en est que les ordinateurs ne comprennent pas la sémantique. Prenez n'importe quelle question ici et essayez de le faire. Cela ne marchera pas 95% du temps.

+0

D'accord, je comprends. devra oublier cette fonctionnalité –

1

Je ne vois pas comment cela serait possible sans que vous ayez une sorte de liste. Comment votre application sait-elle quels mots utiliser et ne pas utiliser? Je suppose que vous pourriez trouver un thesauraus dans lequel vous pourriez API et utiliser ceci pour trouver des tags, cela deviendrait plutôt complexe, si vous cherchez à le faire pour des raisons de SEO, vous pourriez faire en sorte que l'application recherche des mots basés sur une liste de mots clés En ce qui concerne la façon de faire cela, j'utilise PHP tout le temps et pense que c'est génial pour la construction d'applications web, mais pour ce genre de chose, (traitement d'un lot des données de texte, regex, etc) J'ai tendance à avoir des problèmes en PHP, peut-être juste moi, mais je préfère utiliser Perl

0

Headup peut également aider avec cette tâche (tout comme Open Calais). Vous pouvez vérifier ici, et voir si cela fonctionne pour vous:

http://labs.headup.com/Services/RealTime/API/EntitiyExtraction/Playground.aspx

Si nécessaire, il y a aussi une API.

(Avis de non responsabilité: Je suis un développeur @SemantiNet et je travaille sur ce produit ... Nous aimerions vous aider).

Bonne chance!

Questions connexes