2009-12-21 4 views
1

Je suis en train d'essayer de revenir en arrière un ensemble de liens et de contenu à partir d'un domaine.YQL scrape site entier/domaine

La requête dans Google serait

"site:www.newswebsite.com search_term" 

J'ai vu des choses près de faire ce travail, mais je ne peux pas sembler obtenir assez une recherche de travail sur un site Web entier, puis filtrer par le terme de recherche

Est-ce possible sans tableau de données personnalisé?

+0

Cela semble me se rapprocher, select html, abstraire de search.web où query = "newswebsite.com terme_recherche" –

+0

Et De plus, titre select, abstrait, URL de search.web où query = » newswebsite.com search_term " –

Répondre

2

Je suis allé au fond des choses à la fin.

select title,abstract,url,date from search.web(0) where query="search_term" and sites="www.website1.com,www.website2.com,www.website3.com" | sort (field='date') | reverse() 

Ceci recherche 3 sites, classés par date, et les plus récents en premier. Il existe un moyen alternatif d'inverser le genre, mais cela semble fonctionner pour l'instant. Je pense que c'est descendant = vrai dans le tri (field = 'date', descending = 'true')

Très utile, même si je le dis moi-même.

0

Christian Heilmann vient d'écrire un article assez sympa sur YQL et de récupérer des informations à partir d'une source de données HTML sur le 24ways website.