import urllib2
website = "WEBSITE"
openwebsite = urllib2.urlopen(website)
html = getwebsite.read()
print html
Jusqu'ici tout va bien.Comment puis-je obtenir des liens href à partir de HTML en utilisant Python?
Mais je ne veux que des liens href à partir du texte brut HTML. Comment puis-je résoudre ce problème?
BeautifulSoup ne peut pas fermer automatiquement les balises 'meta', par exemple.Le modèle DOM n'est pas valide et il n'y a aucune garantie que vous trouviez ce que vous cherchez. – Antonio
un autre problème avec bsoup est, le format du lien changera de son original. Donc, si vous voulez changer le lien d'origine pour pointer vers une autre ressource, pour l'instant, je n'ai toujours aucune idée de la façon de le faire avec bsoup. Toute suggestion? – swdev
Tous les liens ne contiennent pas http. Par exemple, si vous codez votre site pour supprimer le protocole, les liens commenceront par '//'. Cela signifie simplement utiliser le protocole avec lequel le site est chargé (soit http: 'ou' https: '). – reubano