2009-11-24 3 views
0

lequel est le meilleur pour gratter l'écran? simple html dom ou snoopy ?? J'utilise le simple html dom et le trouve confortable .. snoopy a-t-il un avantage par rapport au simple html dom?Meilleur grattoir d'écran, simple html dom ou snoopy?

mes exigences: si je veux gratter le contenu d'une page (après la connexion) .. simple, dom html est facile, mais il faut un temps de Lotta pour imprimer les résultats ..

+0

Cela dépend de ce que vous voulez faire. Post plus de détails, s'il vous plaît ... –

Répondre

1

est-Snoopy que bien connu/maturité d'un paquet? Si ce n'est pas le cas, toutes choses égales par ailleurs, j'irais probablement avec du code DOM HTML générique - surtout si le grattage est quelque peu simple. Mais seulement vous savez quand votre code commence à devenir trop grand, ingérable, etc., à quel point il pourrait être préférable de regarder un autre outil là-bas comme Snoopy. Pour ceux qui ne le connaissent pas, il est évident que je n'en ai pas l'expérience: «Snoopy est une classe PHP qui simule un navigateur Web et automatise la tâche de récupération du contenu de la page Web et poster des formulaires, par exemple. ")

La vraie raison pour laquelle je poste, même si je ne connais pas Snoopy en soi et que je ne peux donc pas répondre définitivement à votre question, est de vous demander si vous avez envisagé d'utiliser Selenium (http://www.seleniumhq.org/) au lieu de Snoopy. Le sélénium est un outil de test assez connu, et il m'est venu à l'esprit que l'un des avantages de l'utiliser pour ce que vous faites (si vous le pouvez) est qu'il a intégré des tests.

La raison pour laquelle cela est bon est que le scraping d'écran est une sorte de tâche intrinsèquement fragile - si le site cible change quelque chose, blam, votre scraping échoue. C'est donc un bon design d'avoir un système automatisé de grattage/test-that-scraping-travaillé.

Quelque chose à penser, de toute façon.

+0

merci pour le lien .. je suis regarder .. – Sam

0

Je suis tombé sur BeautifulSoup, qui est basé sur Python. Je suppose qu'il y en a beaucoup d'autres aussi.

On dirait que Snoopy est basé sur PHP, et peut donc être exécuté uniquement côté serveur. Est-ce ce que vous cherchez vraiment? Quelles sont vos exigences? S'il vous plaît élaborer sur cela.

+0

Il y a aussi Mechanize (http://www.wsearch.sourceforge.net/mechanize/) qui est basé sur Python et basé sur BeautifulSoup . Andrea et Jeremy ont raison, nous avons besoin de plus de détails sur ce que vous essayez de faire (et combien de fois vous voulez le faire, pour combien de pages, etc.) pour pouvoir recommander le côté serveur par rapport au côté client , etc. – Chirael