En général, vous devez automatiser l'accès au site et l'analyse, c'est-à-dire le scraping. Il ya généralement deux zones difficiles à surveiller: 1) l'authentification 2) tout ce que vous êtes en train de gratter vous obligera généralement à inspecter son code HTML de près tout en déterminant ce que vous essayez d'accomplir.
j'ai écrit une application simple rubis qui râpe et recherche magasin rénové d'Apple un certain temps que vous pouvez consulter ici comme un exemple (garder à l'esprit, il pourrait certainement être amélioré, mais peut vous aider à aller):
J'ai écrit des choses similaires pour récupérer des données de mes comptes bancaires (je ne tiens pas à donner mes informations d'identification) en utilisant mécanisé et hpricot, ainsi que des sites d'emplois, des concessionnaires d'occasion, etc. si vous voulez mettre dans l'effort.
C'est une chose utile à faire, mais vous devez faire attention à ne pas enfreindre les politiques d'utilisation et autres.
Voici un autre exemple rapide qui saisit les offres d'emploi pour vous montrer à quel point il peut être
#!/usr/bin/ruby
require 'rubygems'
require 'mechanize'
require 'hpricot'
require 'open-uri'
url = "http://tbe.taleo.net/NA2/ats/careers/jobSearch.jsp?org=DIGITALGLOBE&cws=1"
site = WWW::Mechanize.new { |agent| agent.user_agent_alias = 'Mac Safari' }
page = site.get(url)
search_form = page.form("TBE_theForm")
search_form.org = "DIGITALGLOBE"
search_form.cws = "1"
search_form.act = "search"
search_form.WebPage = "JSRCH"
search_form.WebVersion = "0"
search_form.add_field!('location','1') #5
search_form.add_field!('updatedWithin','2')
search_results = site.submit(search_form)
doc = Hpricot(search_results.body)
puts "<b>DigitalGlobe (Longmont)</b>"
doc.search("//a").each do |a|
if a.to_s.rindex('rid=') != nil
puts a.to_s.gsub('"','')
end
end