2011-05-16 5 views
4

J'essaie d'utiliser Scrapy pour gratter le site Web des réglementations gouvernementales américaines (www.regulations.gov). Il contient beaucoup d'informations, mais c'est un site terrible, plein de javascript et d'iframes. J'ai essayé de faire tourner de simples araignées Scrapy, mais je ne peux rien analyser car tout se charge via JavaScript et les iframes.Utilisation de Scrapy avec JavaScript et iFrames et alternatives

Par exemple, sur le main search page, ce bloc de code charge en fait le tableau des résultats:

<script type="text/javascript" src="Regs/Regs.nocache.js?REGS211-b3"></script> 

<title>Regulations.gov</title> 
<link rel="stylesheet" type="text/css" href="css/print.css" media="print" /> 
</head> 

<body class="bodyLoading"> 
<!-- this is required for GWT history support --> 
<iframe src="javascript:''" id="__gwt_historyFrame" tabIndex='-1' style="position:absolute;width:0;height:0;border:0"></iframe> 
<!-- For printing window contents --> 
<iframe id="__printingFrame" style="width:0;height:0;border:0;" ></iframe> 

Et, les pages de résultats individuels ont le même problème. Par exemple, this page a la même source que ci-dessus.

Can Scrapy peut-il gérer ce problème? Y a-t-il des alternatives qui pourraient être en mesure de le faire?

Répondre