Nettoyage et suppression des étiquettes avec BeautifulSoup

je le script suivant à ce jour:Nettoyage et suppression des étiquettes avec BeautifulSoup

from mechanize import Browser 
from BeautifulSoup import BeautifulSoup 
import re 
import urllib2 

br = Browser() 
br.open("http://www.foo.com") 

html = br.response().read(); 

soup = BeautifulSoup(html) 
items = soup.findAll(id="info")

et il fonctionne parfaitement, et les résultats ci-après « éléments »:

<div id="info"> 
<span class="customer"><b>John Doe</b></span><br> 
123 Main Street<br> 
Phone:5551234<br> 
<b><span class="paid">YES</span></b> 
</div>

Cependant, je souhaitez prendre articles et nettoyer pour obtenir

John Doe 
123 Main Street 
5551234

Comment pouvez-vous remo Avez-vous des tags dans BeautifulSoup et Python?

Comme toujours, merci!

Source

2010-06-30 Parker

Cela fera pour ce EXACT html. Évidemment, cela ne tolère aucune déviation, donc vous voudrez ajouter beaucoup de vérification des limites et de vérification des valeurs nulles, mais voici les rouages pour obtenir vos données en texte brut.

items = soup.findAll(id="info") 
print items[0].span.b.contents[0] 
print items[0].contents[3].strip() 
print items[0].contents[5].strip().split(":", 1)[1]

Source

2010-07-01 00:42:23

Merci, Peter, c'est exactement ce dont j'avais besoin! – Parker

Nettoyage et suppression des étiquettes avec BeautifulSoup

Répondre

Questions connexes