2009-06-24 4 views
1

J'ai posté une URL pour un billet de blog dans un message Facebook http://www.autoblog.com/2009/06/22/we-are-all-bumblebee-beijing-transformers-fans-gather-to-celebr/ et Facebook inline le titre et le texte abrégé comme si elle les alla chercher du flux rss http://www.autoblog.com/rss.xml mais quand je soumettais le lien le blog était déjà expiré sur de l'alimentation - j'ai vérifié.Comment Facebook prélève-t-il le contenu de l'url/du flux?

voir cette capture d'écran: http://i43.tinypic.com/nwbu4m.jpg

est-il avec une recherche FeedBurner? Comment cela peut-il être accompli de la même manière?

acclamations

Répondre

3

Je pense qu'ils font une recherche avancée racler les blocs les plus importants de données et HTML et en utilisant cela. Fondamentalement, ils analysent tout rapidement, lancent des publicités, etc. et utilisent les gros blobs de données.

Digg fait des choses similaires.

Je le ferais pour l'implémenter.

  1. Analyse des balises META, des balises RSS et de l'étiquette de titre.
  2. Trouvez de grandes "zones" avec beaucoup de contenu. Inclure également les étiquettes p. Pesez-les ou notez-les sur la probabilité qu'ils soient satisfaits. Recherchez les classes CSS mot-clé/id (taux « contenu » supérieur à « annonces » ou « navigation »
  3. Rechercher des grandes images
  4. informations magasin sur le site pour une utilisation future et heuristiques amélioration

Cette Tout est fait sur le serveur probable, et servi au navigateur en utilisant AJAX

+1

Je pense que vous avez raison, il est certainement servi au navigateur via Ajax (confirmé en utilisant Firebug). Pour certaines pages qui n'ont pas de gros "blobs" de données textuelles, leur algorithme semble retomber à certaines choses plus simples, comme étiquettes. Par exemple, pour ce lien http://www.theweathernetwork.com/weather/caon0493 La est utilisée. – Peter

+0

merci pour la suggestion. J'espérais que le scraping d'écran pourrait être évité, mais dang, ce n'est pas une chose amusante à mettre en œuvre de manière échelonnable. – john

+0

Je connais quelqu'un qui travaillait sur quelque chose comme ça en utilisant une partie de WebKit. –

Questions connexes