Comment télécharger rapidement beaucoup de pages web en ruby? Téléchargement en parallèle?

J'ai besoin de gratter (en utilisant scrAPI) 400+ pages web rubis, mon code actuel est séquentiel:Comment télécharger rapidement beaucoup de pages web en ruby? Téléchargement en parallèle?

data = urls.map {|url| scraper.scrape url }

En fait, le code est un peu différent (gestion des exceptions et d'autres choses).

Comment puis-je le rendre plus rapide? Comment puis-je paralléliser les téléchargements?

Source

2009-02-18 Anonymous

Avez-vous besoin de vous soucier de toucher le serveur avec trop de demandes à la fois? –

th = [] 
data = [] 
dlock = Mutex.new 

urls.each do |url| 
    th << Thread.new(url) do |url| 
    d = scraper.scrape url 
    dlock.synchronize { data << d } 
    end 
end 

th.each { |t| t.join }

Tada! (Attention, écrit de mémoire, non testé, peut manger votre chaton, etc.)

Edit: je me suis dit que quelqu'un doit avoir écrit une version généralisée de ce fait, et ils ont donc: http://peach.rubyforge.org/ - amusez-vous!

Source

2009-02-18 01:02:58 womble

C'est à peu près un exemple utilisé dans l'explication Pioche du filetage:

http://www.rubycentral.com/pickaxe/tut_threads.html

Vous devriez être en mesure d'adapter le code Pioche trivialement utiliser votre grattoir.

Source

2009-02-18 01:04:30 runako

Comment télécharger rapidement beaucoup de pages web en ruby? Téléchargement en parallèle?

Répondre

Questions connexes