2009-07-22 5 views
1

J'essaie de charger la source de n'importe quelle page dans une zone de texte pour un éditeur html côté client. Je dois être en mesure d'obtenir la source complète d'une page Web, pas seulement le corps. Cette requête retourne de YQL tout le corps:Y at-il un moyen d'obtenir la source entière d'une page avec yql?

http://query.yahooapis.com/v1/public/yql?format=xml&callback=editor.handleLoad&q=select+*+from+html+where+url%3D%22example.com%22 

Est-il possible d'obtenir la totalité de la source, ou sont-il d'autres webservices libres JSON-p-x qui peut?

Répondre

1

Je ne vois pas de moyen évident de faire cela avec YQL, mais voici un Yahoo Pipe qui semble fonctionner. Il refuse de se les sites non admises par leur robots.txt, mais il devient toute source pour d'autres sites:

http://pipes.yahoo.com/pipes/pipe.info?_id=dCsGDO123hG6BNv70EypaA

La valeur par défaut est réglé sur www.example.com, qui est refusée en raison de le fichier robots.txt sur cette page. Cependant, il accepte l'URL en tant que paramètre. Voici un lien vers un exemple d'utilisation de ce tuyau qui obtient la source de pipes.yahoo.com et renvoie le résultat enveloppé dans JSON:

http://pipes.yahoo.com/pipes/pipe.run?_id=dCsGDO123hG6BNv70EypaA&_render=json&url=http%3A%2F%2Fpipes.yahoo.com%2F

cette aide?

+0

C'est plus proche. Le canal semble filtrer toutes les balises meta et script. Y a-t-il des proxy/webservices qui retourneront la page entière? – Craig

Questions connexes