J'essaie d'extraire le src iframe étant donné un ensemble de sites utilisant Python. Par exemple, ma contribution serait A.com, B.com, C.com et si chacun de ces sites ont des iframes qui pointent vers D.com, E.com, F.com, ('None' si le site ne le fait pas ont un iframe) alors je voudrais que la sortie soit quelque chose de la forme:Extraire les liens HTML en utilisant Python
Site Iframe Src
A.com D.com
B.com E.com
C.com F.com
Actuellement, j'ai quelque chose comme ceci:
from collections import defaultdict
import urllib2
import re
def PrintLinks(website):
counter = 0
regexp_link= regexp_link = r'''<frame src =((http|ftp)s?://.*?)'''
pattern = re.compile(regexp_link)
links = [None]*len(website)
for x in website:
html_page = urllib2.urlopen(website[counter])
html = html_page.read()
links[counter] = re.findall(pattern,html)
counter += 1
return links
def main():
website=["A.com","B.com","C.com"]
Est-ce la meilleure façon de le faire et comment voulez- Je reçois la sortie pour être le format que je voudrais? Merci!