Comment obtenir des tags html?

Dire que j'ai un fichier texte comme celui-ci:Comment obtenir des tags html?

<html><head>Headline<html><head>more words 
</script>even more words</script> 
<html><head>Headline<html><head>more words 
</script>even more words</script>

Comment pourrais-je obtenir seulement les balises dans une liste comme ceci:

<html> 
<head> 
<html> 
<head> 
</script> 
</script> 
<html> 
<head> 
<html> 
<head> 
</script> 
</script>

Source

2010-12-14 Jack Null

Est-ce une continuation de [votre autre question] (http: // stackoverfl ow.com/questions/4435882/how-to-get-html-tags-from-url)? Si c'est le cas, vous devriez vraiment modifier votre autre question, plutôt que de re-poster – inspectorG4dget

Je pense que c'est ce que vous voulez:

html_string = ''.join(input_file.readlines()) 
matches = re.findall('<.*?>', html_string) 
for m in matches: 
    print m

Espérons que cela aide

Source

2010-12-14 04:59:16 inspectorG4dget

je pense que vous voulez dire: re.findall ('<.*?>', html_string) –

@JackNull: Vous avez absolument raison. Les guillemets doubles supplémentaires sont une faute de frappe et ont été corrigés de façon rétroactive – inspectorG4dget

Python a un module HTMLParser pour ce.

Voici un code qui fait ce que vous voulez:

from HTMLParser import HTMLParser 

class MyHTMLParser(HTMLParser): 
    def handle_starttag(self, tag, attrs): 
     print "<%s>"%tag 

    def handle_endtag(self, tag): 
     print "</%s>"%tag 

parser = MyHTMLParser(); 
parser.feed("""<html><head>Headline<html><head>more words 
     </script>even more words</script> 
     <html><head>Headline<html><head>more words 
     </script>even more words</script> 
     """)

Entrez votre chaîne dans parser.feed

Sortie:

$ python htmlparser.py 
<html> 
<head> 
<html> 
<head> 
</script> 
</script> 
<html> 
<head> 
<html> 
<head> 
</script> 
</script>

Cette discussion sur le SO devrait aider: Using HTMLParser in Python efficiently

Source

2010-12-14 05:09:14 dheerosaur

Comment obtenir des tags html?

Répondre

Questions connexes