3

Comment puis-je utiliser une belle soupe et selectorgadget pour gratter un site Web. Par exemple, j'ai un site Web - (a newegg product) et je voudrais que mon script retourne toutes les spécifications de ce produit (cliquez sur SPÉCIFICATIONS) par ce que je veux dire - Intel, Desktop, ......, 2.4GHz, 1066Mhz,. ....., 3 ans limités.Analyse d'un fichier HTML avec selectorgadget.com

Après avoir utilisé selectorgadget je reçois le string- .desc

Comment puis-je utiliser?

Merci :)

Répondre

1

inspectant la page, je peux voir que les spécifications sont placées dans un div avec l'ID pcraSpecs:

<div id="pcraSpecs"> 
    <script type="text/javascript">...</script> 
    <TABLE cellpadding="0" cellspacing="0" class="specification"> 
    <TR> 
     <TD colspan="2" class="title">Model</TD> 
    </TR> 
    <TR> 
     <TD class="name">Brand</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Intel'));</script></TD> 
    </TR> 
    <TR> 
     <TD class="name">Processors Type</TD> 
     <TD class="desc"><script type="text/javascript">document.write(neg_specification_newline('Desktop'));</script></TD>  
    </TR> 
    ... 
    </TABLE> 
</div> 

desc est la classe des cellules du tableau.

Ce que vous voulez faire est d'extraire le contenu de cette table.

soup.find(id="pcraSpecs").findAll("td") devrait vous aider à démarrer.

0

Avez-vous essayé d'utiliser Feedity - http://feedity.com pour créer un flux RSS personnalisé à partir de n'importe quelle page Web.