2010-05-08 5 views
1

J'expérimente en extrayant certaines pages d'un flux RSS en utilisant curl et php. Le grattage de la page fonctionnait correctement lorsque j'utilisais des liens réels, pas des liens provenant des flux rss. Cependant, je me rends compte maintenant que les liens dans les flux rss sont généralement juste des redirections vers la page réelle (du moins c'est ce que cela semble être). Parce que maintenant, quand je gratte une page avec le lien rss, je ne trouve pas l'information que je recherche.Obtenir un vrai lien à partir du lien de flux rss

Est-ce que quelqu'un a rencontré ceci et sait d'une solution de contournement. Y at-il de toute façon de voir où redirige le lien RSS et de capturer cette valeur?

Répondre

0

Je pense que vous devrez peut-être utiliser le commutateur -L pour lui indiquer de suivre les redirections. Je ne suis pas sûr si vous pouvez le faire directement à partir de PHP ou si vous devez suivre cette approche http://php.net/manual/en/function.curl-setopt.php#95027. Il est toujours possible que le site que vous gravez des blocs par l'agent utilisateur ou quelque chose aussi bien. Peut-être essayer l'un des liens dans un navigateur lors de l'exécution de Fiddler ou similaire pour voir si une redirection est en cours.

+0

merci, ouais j'ai réussi à trouver un script qui boucle les redirections et trouve le dernier. Il semble que la plupart des sites ne bloquent pas par useragent, mais il y en a. – pfunc

Questions connexes