Je pensais à écrire un script PHP qui analyserait le contenu d'une page CMS'd (champ de base de données) puis générerait automatiquement des balises de mots-clés (0) HTML META description &, mais comme toujours il ne sert à rien de réinventer la roue alors je me demande si quelqu'un connaît une telle bête? Le premier que j'imagine serait quelque chose comme une regex relativement simple pour saisir la première ou les deux premières phrases, tandis que le second impliquerait probablement l'élimination des mots contre un dictionnaire de mots communs et ensuite la pondération de la fréquence ou similaire.Génération automatique de balises META en PHP
Répondre
Les problèmes que vous envisagez sont doubles: un d'extraction de mot-clé et un de résumé de document. Le premier, que j'utiliserais évidemment pour les mots-clés, a une approche naïve très simple: choisissez le mot le plus fréquent dans le contenu, sans tous les mots vides (regardez ça dans Wikipedia si vous ne savez pas ce que c'est). Il existe de nombreuses méthodes plus avancées, y compris la pondération pour l'inclusion des synonymes, l'emplacement dans le texte ou le balisage, et plus encore. Il y a quelques exemples de scripts d'extraction de mots-clés faciles en PHP que vous pouvez implémenter sans problème. Juste Google recherche quelque chose comme "l'extraction de mots clés PHP" et vous trouverez quelques-uns.
Le deuxième problème, d'autre part, est un peu plus difficile, et est toujours la source de beaucoup de travail universitaire. Vous auriez besoin d'un résumé pour une balise de méta description très complète. Il ne vaut peut-être pas la peine que vous consacriez votre temps si vous ne cherchez pas un projet d'IA à grande échelle qui pourrait encore devenir rigide ou incohérent. Une autre approche serait simplement une heuristique qui utilise l'extraction de mots-clés: "Cet article est sur (premier mot-clé le plus commun), (deuxième mot-clé le plus commun), et (troisième mot-clé le plus commun)." Vous avez au moins l'avantage d'intégrer du contenu dans les mots clés et dans la description. Si vous souhaitez l'améliorer, utilisez plutôt des synonymes. Il y a un PHP implementation of WordNet semi-fonctionnel, mais je suggère d'externaliser à la Natural Language Toolkit for Python pour le levage lourd là-bas, comme la plupart du travail est déjà fait pour vous. Je voudrais prendre un court moment pour encourager vos recherches dans ce domaine et ignorer le refus de M. Warnica. Méta informations est important à la fois pour la classification des documents et l'extraction de l'information dans le domaine de la recherche. Il serait stupide de ne pas avoir les données, et il est, en fait, utile de l'automatiser pour les systèmes de gestion de contenu à grande échelle. Bonne chance avec vos efforts.
Le module Yahoo Pipes Term Extractor fait quelque chose de similaire à ce que vous voulez. Malheureusement, je ne suis pas au courant de la source pour que les modules de tuyaux soient ouverts.
- 1. Scripts de génération automatique
- 2. Capacité mobile pour les balises meta en ASP.NET Mobile
- 3. Désactiver les balises à fermeture automatique dans SimpleXML pour PHP?
- 4. génération d'entrée automatique django
- 5. PHP Dom XML Analyse des balises à fermeture automatique vides
- 6. Outil de génération automatique de cache HTML
- 7. Génération automatique de stubs de fonction
- 8. Problème avec l'expression régulière C# pour extraire les balises META
- 9. Est-il possible d'utiliser jQuery pour lire des balises META?
- 10. Requête mysql automatique en PHP
- 11. Génération automatique de beans entité EJB3
- 12. XSD et génération automatique de classe/message
- 13. Définir la page en haut à gauche en utilisant les balises Meta - HTML
- 14. Balises MP3 et OGG en PHP
- 15. balises Php affichage
- 16. Meta Attribut dans Asp.NET
- 17. Création d'un modeste script de modification SQL de génération automatique?
- 18. Preg texte de correspondance en php entre les balises html
- 19. Comment puis-je implémenter un moteur de balises en PHP?
- 20. Quelle convention de Concordion permet la génération automatique de chapelure?
- 21. Date de recherche meta tags dans Sharepoint
- 22. Génération automatique de colonnes/champs liés pour une vue Details
- 23. Génération automatique de fichiers source et doc dans NetBeans
- 24. Comment passer les balises meta de la page dans ASP.NET MVC?
- 25. Génération de pages de la classe PHP
- 26. Est-il possible d'utiliser la génération automatique et la génération de schéma avec Fluent NHibernate?
- 27. génération de test automatisée?
- 28. Fonction filter_var() de PHP Génération d'avertissement
- 29. PHP: Escape Quotes SEULEMENT en dehors des balises HTML (Regex)
- 30. Quels sont considérés comme des "mots" répétés dans les balises meta keywords?
Merci pour votre réponse attentionnée et votre compréhension approfondie d'où je viens. Je t'ai voté +1 mais étrangement quelqu'un d'autre semble avoir fait le contraire - Mr Warnica peut-être? – da5id