2017-09-25 2 views
-1

Je souhaite lire tout le contenu d'une page html et l'avoir dans une liste.Contenu HTML dans la liste

Pourriez-vous pls suggérer des options en Python

Exemple:

url: https://en.wikipedia.org/wiki/Chancellor_of_Germany

obtenir tout le contenu de cette page et le stocker dans une liste

Le chancelier de l'Allemagne est le chef du gouvernement de l'Allemagne. Le titre officiel en allemand est Bundeskanzler (littéralement, chancelier fédéral), parfois raccourci à Kanzler (en). Le terme, datant du début du Moyen Âge, est dérivé du terme latin cancellarius. Dans la politique allemande, le chancelier est équivalent à celui d'un premier ministre dans de nombreux autres pays. L'allemand a deux traductions équivalentes du premier ministre, Premierminister et Ministerpräsident. Tandis que Premierminister se réfère généralement aux chefs de gouvernement des pays étrangers (par exemple, le Royaume-Uni), le ministre-président peut également se référer aux chefs de gouvernement de la plupart des États allemands. La chancelière actuelle est Angela Merkel, qui est en train de remplir son troisième mandat. Elle est la première femme chancelière, connue sous le nom allemand de Bundeskanzlerin (ce mot particulier n'a jamais été utilisé officiellement avant Merkel, mais c'est une formation grammaticalement régulière d'un nom désignant une femme chancelière, ajoutant "à" à la fin de " Bundeskanzler ").

Répondre

0

Il est simple:

import requests 
import bs4 

response = requests.get('https://en.wikipedia.org/wiki/Chancellor_of_Germany') 
soup = bs4.BeautifulSoup(response.text, "html.parser") 
txt = soup.find("div", {"id": "mw-content-text"}) 
para = txt.findAll('p') 

for item in para: 
    print item.text 

Vous pouvez imprimer ou enregistrer que sur la liste ou toute autre chose. En outre, vous pouvez tokenize avec nltk base sur les phrases.