Comment supprimer des textes dans les balises html en python?

Possible en double:
Strip html from strings in python Comment supprimer des textes dans les balises html en python?

Tout en faisant un petit navigateur comme l'application, je suis face au problème de spliting les différentes balises. Considérons la chaîne

<html> <h1> good morning </h1> welcome </html>

J'ai besoin la sortie suivante: [ 'bonjour', 'bienvenue']

Comment puis-je faire cela en python?

Source

2012-10-08 Anonymous

Vous pouvez utiliser un des analyseurs html/xml de python.

Belle soupe est populaire. lmxl est populaire aussi.

ci-dessus sont pacakges tiers, vous pouvez utiliser la bibliothèque standard trop

http://docs.python.org/library/xml.etree.elementtree.html

Source

2012-10-08 18:10:50 dm03514

J'utiliser xml.etree.ElementTree:

def get_text(etree): 
    for child in etree: 
     if child.text: 
      yield child.text 
     if child.tail: 
      yield child.tail 

import xml.etree.ElementTree as ET 
root = ET.fromstring('<html> <h1> good morning </h1> welcome </html>') 
print list(get_text(root))

Source

2012-10-08 18:19:40 mgilson

J'utiliser la bibliothèque python Beautiful Soup pour atteindre votre objectif. C'est juste un couple de lignes avec son aide:

from bs4 import BeautifulSoup 
soup = BeautifulSoup('<html> <h1> good morning </h1> welcome </html>') 
print [text for text in soup.stripped_strings]

Source

2012-10-08 18:29:44 halex

Comment supprimer des textes dans les balises html en python?

Répondre

Questions connexes