2009-08-14 7 views
0

Lorsque vous partagez quelque chose sur Facebook ou Digg, il génère un résumé de la page. Comment ferais-je cela en Perl? Quels algorithmes sont là?Comment créer un résumé de site Web avec Perl?

Par exemple:

Si je vais à Facebook et a essayé de partager cette question comme un lien: How can I create a website summary with Perl?

Il récupère "Facebook/Digg obtenir résumé du site - Stack Overflow" comme le titre (qui est juste le titre de la page) et [... question incomplète?]

+2

Pouvez-vous expliquer le genre de résumé que vous recherchez plus en détail? – Mark

Répondre

1

Fondamentalement, vous voulez gratter l'URL et trouver le « plus important paragraphe » qui pourrait être la première <div> ou <p> élém ent après la première <h2> ou <h1>, en fonction de la disposition de la page.

1

Vous pouvez vérifier et voir s'il y a une méta description sur la page, mais cela vous laisse à la merci de celui qui a écrit la méta description.

+0

J'ai essayé de le faire, mais la plupart des articles ne les contiennent pas. – Timmy

2

En supposant que vous voulez dire le partage d'un lien ...

Habituellement, le résumé est écrit par l'utilisateur qui soumet l'URL. Si vous devez écrire un résumé automagiquement cela peut être réalisé par:

  • En utilisant les 100 premiers ou si les caractères du corps du document (en soi pas facile)
  • Utilisation des métadonnées comme la description ou les mots clés (souvent vide ou spammé)
  • résumés contextuels pertinents comme recreating Google snippets (désolé mais son PHP simple,)
  • tags/mots-clés du document en utilisant quelque chose comme le Yahoo Keyword Extractor API ou votre propre fonction de densité de mots clés

Le mieux est de demander à l'utilisateur!

espoir qui aide un peu :)

Questions connexes