2010-06-27 4 views
0

Je suis à la recherche de suggestions concernant les outils de raclage. La solution n'a pas besoin d'être très tolérante envers le HTML malformé ou capable de s'adapter à de nombreuses situations différentes. Il n'a pas besoin d'être très évolutif, il sera exécuté au plus une fois par jour. Il doit faire une chose et bien le faire: gratter le HTML à partir d'un site spécifique. Je préfèrerais utiliser un grattoir à base de sélecteur css plutôt qu'un XPath, car le premier serait plus simple à utiliser étant donné que je ne veux que gratter le HTML.Quels ruby ​​/ rails ou outils de grattage basés sur le sélecteur PHP et CSS, recommandez-vous?

Je suis à la recherche de scrAPI, mais il n'est plus développé. J'ai peur qu'il ne soit pas porté sur Ruby 1.9x. J'ai rencontré [bugs] dans la gemme (obligatoire) tidylib qui devait être corrigée manuellement http://bit.ly/beZHMR. En bout de ligne, je ne veux pas construire une solution qui va progressivement se mettre à la faillite.

J'ai regardé dans plusieurs autres options (scRUBYt, Scrapy, Belle soupe), mais aucun d'entre eux correspondent à ces deux exigences:

A) utiliser Ruby/rails ou php

B) utilisez le sélecteur css pas XPath (sauf si je suis exagérer la complexité de ce dernier va ajouter au travail)

J'ai même regardé http://mozenda.com mais leur outil étouffé sur le premier travail et leur soutien ne m'a toujours pas retourné. Est-ce que quelqu'un pourrait suggérer une boîte à outils de raclage qui correspond à l'exigence?

merci.

Répondre

Questions connexes