Ayant du mal à extraire le texte à l'intérieur gratté les balises HTML en utilisant belle soupe

Le code que je utilise pour gratter le contenuAyant du mal à extraire le texte à l'intérieur gratté les balises HTML en utilisant belle soupe

Ceci retourne une liste avec des entrées semblables à ce

<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>

Je suis tenter d'extraire le texte entre les balises href, dans ce cas

World Quest Tracker

Comment pourrais-je ccomplis cela?

Source

2017-10-14 Lost Boy

Essayez ceci.

from bs4 import BeautifulSoup 

html=''' 
<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li> 
''' 
soup = BeautifulSoup(html, "lxml") 
for item in soup.select(".title"): 
    print(item.text)

Résultat:

World Quest Tracker

Source

2017-10-14 06:36:38 SIM

html_doc = '<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>' 
soup = BeautifulSoup(html_doc, 'html.parser') 
print soup.find('a').text

ce imprimera

u'World Quête Tracker »

Source

2017-10-14 06:12:38

Je tente d'extraire le texte inbetween les balises href

Si vous voulez réellement le texte dans l'attribut href, et non la contenu texte enveloppé par l'ancre <a></a> (votre libellé est un peu flou), utilisez get('href'):

from bs4 import BeautifulSoup 

html = '<li class="title"><h4><a href="/addons/wow/world-quest-tracker">World Quest Tracker</a></h4></li>' 
soup = BeautifulSoup(html, 'lxml') 
soup.find('a').get('href') 

'/addons/wow/world-quest-tracker'

Source

2017-10-14 06:39:20

Ayant du mal à extraire le texte à l'intérieur gratté les balises HTML en utilisant belle soupe

Répondre

Questions connexes