2010-11-03 5 views
1

Est-il possible d'exécuter simplement Beautiful Soup sur le contenu contenu entre deux chaînes sur une page? Ayant à plusieurs reprises rencontré les limites de l'utilisation de Yahoo Pipes pour le screenscraping, j'ai commencé à utiliser Beautiful Soup, en partie parce qu'une version hébergée est disponible sur Scraperwiki. L'une des choses pratiques à propos du bloc d'importation HTML dans Yahoo Pipes est qu'il vous permet d'identifier une chaîne de début et une chaîne d'arrêt, de sorte que vous pouvez limiter une éraflure à une région particulière d'une page.Belle soupe - Recherche entre deux parties d'un document

J'ai trouvé un moyen de grattage/de/une chaîne particulière dans la belle soupe:

def scrapeFrom(soup,txt,el,attr=''):
start=soup.find(text=txt)
return start.findAllNext(el,attr)

mais ne peut pas voir comment vider tout en aval d'une chaîne?

En d'autres termes, je veux pouvoir dire "scrapeFromUntil (soup, fromText, untilText)" et ne balayer que les tags entre ces deux chaînes?

Des idées comment faire cela?

Répondre

Questions connexes