2010-07-30 3 views
1

Contexte: La page contient un tableau contenant des données. Lorsque vous cliquez sur plusieurs liens hypertexte, les données de la table sont remplacées par de nouvelles données. En outre, la page est une page ASPX.Raclage de données à partir d'un site Web dynamique

Objectif: Je souhaite supprimer les données de la table pour tous les hyperliens activés. J'ai regardé ce qui se passe via firebug et quand un lien hypertexte est cliqué, il génère un post http vers le serveur via ajax. Le problème est qu'il y a beaucoup de paramètres de la poubelle vraiment envoyés. Je suppose que c'est parce que asp fait certaines choses de type sessioning. Je suppose que même si j'ai copié les paramètres exacts que mon navigateur a envoyés, la plupart d'entre eux ne sera pas valide plus tard de toute façon.

Comment les gens écrivent-ils habituellement des scripts http qui traitent de ce genre de choses?

Répondre

0

La méthode infaillible que j'utilise consiste simplement à interpréter JS de la page dans mon script de grattage et à le laisser remplir tous ces paramètres lui-même. Le moyen le plus rapide d'y parvenir est d'utiliser un moteur prêt, comme WebKit, et de construire votre grattoir par-dessus.

Il est plus difficile, mais plus flexible, d'utiliser les moteurs Google V8 ou Spidermonkey JS de Mozilla et de leur fournir votre propre contexte DOM.

+0

Pouvez-vous plus sur « fournir votre propre contexte DOM pour les » s'il vous plaît? –

0

La plupart du temps, j'utilise WatiN pour des éraflures simples. Il est rare que j'écrive un client parser/scrapers plus. Je vais utiliser le grattoir web irobotsoft pour cela.

0

Cela devrait être très simple.

Questions connexes