Comment puis-je obtenir des liens href à partir de HTML en utilisant Python?

import urllib2 

website = "WEBSITE" 
openwebsite = urllib2.urlopen(website) 
html = getwebsite.read() 

print html

Jusqu'ici tout va bien.Comment puis-je obtenir des liens href à partir de HTML en utilisant Python?

Mais je ne veux que des liens href à partir du texte brut HTML. Comment puis-je résoudre ce problème?

Source

2010-06-19 user371012

Essayez avec Beautifulsoup:

from BeautifulSoup import BeautifulSoup 
import urllib2 
import re 

html_page = urllib2.urlopen("http://www.yourwebsite.com") 
soup = BeautifulSoup(html_page) 
for link in soup.findAll('a'): 
    print link.get('href')

Si vous voulez simplement des liens commençant par http://, vous devez utiliser:

soup.findAll('a', attrs={'href': re.compile("^http://")})

Source

2010-06-19 13:04:10 systempuntoout

BeautifulSoup ne peut pas fermer automatiquement les balises 'meta', par exemple.Le modèle DOM n'est pas valide et il n'y a aucune garantie que vous trouviez ce que vous cherchez. – Antonio

un autre problème avec bsoup est, le format du lien changera de son original. Donc, si vous voulez changer le lien d'origine pour pointer vers une autre ressource, pour l'instant, je n'ai toujours aucune idée de la façon de le faire avec bsoup. Toute suggestion? – swdev

Tous les liens ne contiennent pas http. Par exemple, si vous codez votre site pour supprimer le protocole, les liens commenceront par '//'. Cela signifie simplement utiliser le protocole avec lequel le site est chargé (soit http: 'ou' https: '). – reubano

Vous pouvez utiliser le module HTMLParser.

Le code ressemblerait probablement quelque chose comme ceci:

from HTMLParser import HTMLParser 

class MyHTMLParser(HTMLParser): 

    def handle_starttag(self, tag, attrs): 
     # Only parse the 'anchor' tag. 
     if tag == "a": 
      # Check the list of defined attributes. 
      for name, value in attrs: 
       # If href is defined, print it. 
       if name == "href": 
        print name, "=", value 


parser = MyHTMLParser() 
parser.feed(your_html_string)

Note: Le module HTMLParser a été renommé html.parser en Python 3.0. L'outil 2to3 adaptera automatiquement les importations lors de la conversion de vos sources vers la version 3.0.

Source

2010-06-19 13:02:24 Stephen

Je viens de réaliser que, si un lien contient le caractère HTML spécial tel que '&', il est converti en sa représentation textuelle, comme '&' dans ce cas. Comment préservez-vous la chaîne d'origine? – swdev

Je préfère cette solution, car elle n'a pas besoin de dépendances externes – DomTomCat

Regardez en utilisant la belle bibliothèque de l'analyse syntaxique HTML soupe.

http://www.crummy.com/software/BeautifulSoup/

Vous allez faire quelque chose comme ceci:

import BeautifulSoup 
soup = BeautifulSoup.BeautifulSoup(html) 
for link in soup.findAll("a"): 
    print link.get("href")

Source

2010-06-19 13:07:17

Merci! Mais utilisez 'link' à la place de' a'. – Evgenii

Ma réponse suce probablement par rapport aux véritables gourous là-bas, mais en utilisant quelques calculs simples, découpage en tranches de chaîne, trouver et urllib, ce petit Le script créera une liste contenant les éléments de lien. Je teste google et ma sortie semble correcte. J'espère que cela aide!

import urllib 
test = urllib.urlopen("http://www.google.com").read() 
sane = 0 
needlestack = [] 
while sane == 0: 
    curpos = test.find("href") 
    if curpos >= 0: 
    testlen = len(test) 
    test = test[curpos:testlen] 
    curpos = test.find('"') 
    testlen = len(test) 
    test = test[curpos+1:testlen] 
    curpos = test.find('"') 
    needle = test[0:curpos] 
    if needle.startswith("http" or "www"): 
     needlestack.append(needle) 
    else: 
    sane = 1 
for item in needlestack: 
    print item

Source

2013-02-15 05:05:14 0xhughes

est ici une version paresseuse de @ réponse de stephen

from urllib.request import urlopen 
from itertools import chain 
from html.parser import HTMLParser 

class LinkParser(HTMLParser): 
    def reset(self): 
     HTMLParser.reset(self) 
     self.links = iter([]) 

    def handle_starttag(self, tag, attrs): 
     if tag == 'a': 
      for name, value in attrs: 
       if name == 'href': 
        self.links = chain(self.links, [value]) 


def gen_links(f, parser): 
    encoding = f.headers.get_content_charset() or 'UTF-8' 

    for line in f: 
     parser.feed(line.decode(encoding)) 
     yield from parser.links

Utilisez comme si:

>>> parser = LinkParser() 
>>> f = urlopen('http://stackoverflow.com/questions/3075550') 
>>> links = gen_links(f, parser) 
>>> next(links) 
'//stackoverflow.com'

Source

2017-01-15 17:13:50 reubano

En utilisant BS4 pour cette tâche spécifique semble exagéré.

Essayez plutôt:

website = urllib2.urlopen('http://10.123.123.5/foo_images/Repo/') 
html = website.read() 
files = re.findall('href="(.*tgz|.*tar.gz)"', html) 
print sorted(x for x in (files))

J'ai trouvé ce morceau astucieux de code sur http://www.pythonforbeginners.com/code/regular-expression-re-findall et travaille pour moi très bien.

Je l'ai testé que sur mon scénario d'extraire une liste de fichiers à partir d'un dossier Web qui expose les fichiers \ dossier en elle, par exemple:

et moi avons une liste triée des fichiers \ dossiers sous l'URL

Source

2017-09-20 11:09:29 RaamEE

Comment puis-je obtenir des liens href à partir de HTML en utilisant Python?

Répondre

Questions connexes