Étant donné un lien HTML commeDecomposing HTML pour lier le texte et la cible
<a href="urltxt" class="someclass" close="true">texttxt</a>
comment puis-je isoler l'URL et le texte?
Mises à jour
J'utilise soupe Belle, et je suis incapable de comprendre comment faire.
j'ai fait
soup = BeautifulSoup.BeautifulSoup(urllib.urlopen(url))
links = soup.findAll('a')
for link in links:
print "link content:", link.content," and attr:",link.attrs
je reçois
*link content: None and attr: [(u'href', u'_redirectGeneric.asp?genericURL=/root /support.asp')]* ...
...
Pourquoi suis-je manque le contenu?
edit: élaboré sur 'collé' comme le conseille :)
Le fichier urllib.urlopen (url) a probablement un problème. Essayez d'imprimer cela et voyez ce que vous obtenez. Ce devrait être le HTML direct de la page Web. –
Aussi, "coincé!" n'est pas très descriptif. Montrer plus de code et ce qui ne va pas. –
Merci pour les informations supplémentaires, cela a rendu beaucoup plus facile de voir ce qui se passait. –