2010-06-30 4 views
0

je le script suivant à ce jour:Nettoyage et suppression des étiquettes avec BeautifulSoup

from mechanize import Browser 
from BeautifulSoup import BeautifulSoup 
import re 
import urllib2 

br = Browser() 
br.open("http://www.foo.com") 

html = br.response().read(); 

soup = BeautifulSoup(html) 
items = soup.findAll(id="info") 

et il fonctionne parfaitement, et les résultats ci-après « éléments »:

<div id="info"> 
<span class="customer"><b>John Doe</b></span><br> 
123 Main Street<br> 
Phone:5551234<br> 
<b><span class="paid">YES</span></b> 
</div> 

Cependant, je souhaitez prendre articles et nettoyer pour obtenir

John Doe 
123 Main Street 
5551234 

Comment pouvez-vous remo Avez-vous des tags dans BeautifulSoup et Python?

Comme toujours, merci!

Répondre

1

Cela fera pour ce EXACT html. Évidemment, cela ne tolère aucune déviation, donc vous voudrez ajouter beaucoup de vérification des limites et de vérification des valeurs nulles, mais voici les rouages ​​pour obtenir vos données en texte brut.

items = soup.findAll(id="info") 
print items[0].span.b.contents[0] 
print items[0].contents[3].strip() 
print items[0].contents[5].strip().split(":", 1)[1] 
+0

Merci, Peter, c'est exactement ce dont j'avais besoin! – Parker

Questions connexes