Je dispose d'un fichier html qui ressemble à quelque chose semblable à ceci:Comment extraire la valeur d'attribut dans une structure de tag imbriquée en utilisant beautifulsoup?
<html>
...
<li class="not a user"> </li>
<li class="user">
<a href="abs" ...> </a>
</li>
<li class="user">
<a href="bss" ...> </a>
</li>
...
</html>
compte tenu de l'entrée ci-dessus que je veux analyser les balises li class = « user » et obtenir la valeur des années href comme sortie. est-ce possible en utilisant beautifulsoup en python ???
ma solution était:
data="the above html code snippet"
soup=BeautifulSoup(data)
listset=soup("li","user")
for list in listset:
attrib_value=[a['href'] for a in list.findAll('a',{'href':True})]
i ont de toute évidence une erreur quelque part que ce ne répertorie que la valeur d'attribut pour href de la dernière balise d'ancrage.
pourquoi êtes-vous la mise en attrib_value maintes et maintes fois sur chaque boucle? que faites-vous avec chaque itération? –
le problème est que je continuais réaffectant à chaque itération quand je voulais une liste de valeurs d'attributs! : P – abhixec