J'ai un fichier appelé BBC_news_home.html J'ai besoin de supprimer tous les balises de balises afin que tout ce que je suis parti avec est juste du texte. Jusqu'à présent, je suis arrivé:Python - supprimer les balises de marquage et lire le code HTML à partir du fichier?
def clean_html(html):
cleaned = ''
line = html
pattern = r'(<.*?>)'
result = re.findall(pattern, line, re.S)
if result:
f = codecs.open("BBC_news_home.html", 'r', 'utf-8')
print(f.read())
else:
print('Not cleaned.')
return cleaned
J'ai vérifié avec regex101.com que le modèle est correct Im pas sûr comment imprimer la sortie pour vérifier si les balises sont partis?
Vous voulez probablement regarder dans [BeautifulSoup] (https://www.crummy.com/software/BeautifulSoup/bs4/doc/), plus précisément [.get_text()] (https: //www.crummy. com/logiciel/BeautifulSoup/bs4/doc/# get-text). –