2009-01-06 4 views
2

Je pensais à écrire un script PHP qui analyserait le contenu d'une page CMS'd (champ de base de données) puis générerait automatiquement des balises de mots-clés (0) HTML META description &, mais comme toujours il ne sert à rien de réinventer la roue alors je me demande si quelqu'un connaît une telle bête? Le premier que j'imagine serait quelque chose comme une regex relativement simple pour saisir la première ou les deux premières phrases, tandis que le second impliquerait probablement l'élimination des mots contre un dictionnaire de mots communs et ensuite la pondération de la fréquence ou similaire.Génération automatique de balises META en PHP

Répondre

5

Les problèmes que vous envisagez sont doubles: un d'extraction de mot-clé et un de résumé de document. Le premier, que j'utiliserais évidemment pour les mots-clés, a une approche naïve très simple: choisissez le mot le plus fréquent dans le contenu, sans tous les mots vides (regardez ça dans Wikipedia si vous ne savez pas ce que c'est). Il existe de nombreuses méthodes plus avancées, y compris la pondération pour l'inclusion des synonymes, l'emplacement dans le texte ou le balisage, et plus encore. Il y a quelques exemples de scripts d'extraction de mots-clés faciles en PHP que vous pouvez implémenter sans problème. Juste Google recherche quelque chose comme "l'extraction de mots clés PHP" et vous trouverez quelques-uns.

Le deuxième problème, d'autre part, est un peu plus difficile, et est toujours la source de beaucoup de travail universitaire. Vous auriez besoin d'un résumé pour une balise de méta description très complète. Il ne vaut peut-être pas la peine que vous consacriez votre temps si vous ne cherchez pas un projet d'IA à grande échelle qui pourrait encore devenir rigide ou incohérent. Une autre approche serait simplement une heuristique qui utilise l'extraction de mots-clés: "Cet article est sur (premier mot-clé le plus commun), (deuxième mot-clé le plus commun), et (troisième mot-clé le plus commun)." Vous avez au moins l'avantage d'intégrer du contenu dans les mots clés et dans la description. Si vous souhaitez l'améliorer, utilisez plutôt des synonymes. Il y a un PHP implementation of WordNet semi-fonctionnel, mais je suggère d'externaliser à la Natural Language Toolkit for Python pour le levage lourd là-bas, comme la plupart du travail est déjà fait pour vous. Je voudrais prendre un court moment pour encourager vos recherches dans ce domaine et ignorer le refus de M. Warnica. Méta informations est important à la fois pour la classification des documents et l'extraction de l'information dans le domaine de la recherche. Il serait stupide de ne pas avoir les données, et il est, en fait, utile de l'automatiser pour les systèmes de gestion de contenu à grande échelle. Bonne chance avec vos efforts.

+0

Merci pour votre réponse attentionnée et votre compréhension approfondie d'où je viens. Je t'ai voté +1 mais étrangement quelqu'un d'autre semble avoir fait le contraire - Mr Warnica peut-être? – da5id

0

Le module Yahoo Pipes Term Extractor fait quelque chose de similaire à ce que vous voulez. Malheureusement, je ne suis pas au courant de la source pour que les modules de tuyaux soient ouverts.

Questions connexes