j'ai écrit un script pour télécharger des images Formulaire de recherche d'image Google que je téléchargement actuellement 100 images originales
le script d'origine je l'ai écrit sur stackoverflow réponse
Python - Download Images from google Image search?
que je vais vous expliquer en détail comment Je suis l'URL de grattage des images originales de la recherche d'image de Google en utilisant urllib2 et BeautifulSoup
par exemple si vous voulez gratter des images de terminateur de film 3 fro m soupe variable de l'image de la recherche Google
query= "Terminator 3"
query= '+'.join(query.split()) #this will make the query terminator+3
url="https://www.google.co.in/search?q="+query+"&source=lnms&tbm=isch"
header={'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.134 Safari/537.36"
}
req = urllib2.Request(url,headers=header)
soup= urllib2.urlopen(req)
soup = BeautifulSoup(soup)
contient au-dessus du code HTML de la page qui est demandé maintenant nous avons besoin d'extraire les images pour que u doivent ouvrir la page Web dans votre navigateur et et n'inspectez élément sur la l'image
vous trouverez ici les étiquettes contenant l'image de l'url
par exemple pour google image je l'ai trouvé "div", { "class": "rg_meta"} contenant le lien vers l'image
vous pouvez rechercher le doccummen BeautifulSoup mise en
print soup.find_all("div",{"class":"rg_meta"})
u obtenir une liste des résultats que
<div class="rg_meta">{"cl":3,"cr":3,"ct":12,"id":"C0s-rtOZqcJOvM:","isu":"emuparadise.me","itg":false,"ity":"jpg","oh":540,"ou":"http://199.101.98.242/media/images/66433-Terminator_3_The_Redemption-1.jpg","ow":960,"pt":"Terminator 3 The Redemption ISO \\u0026lt; GCN ISOs | Emuparadise","rid":"VJSwsesuO1s1UM","ru":"http://www.emuparadise.me/Nintendo_Gamecube_ISOs/Terminator_3_The_Redemption/66433","s":"Screenshot Thumbnail/Media File 1 for Terminator 3 The Redemption","th":168,"tu":"https://encrypted-tbn2.gstatic.com/images?q\\u003dtbn:ANd9GcRs8dp-ojc4BmP1PONsXlvscfIl58k9hpu6aWlGV_WwJ33A26jaIw","tw":300}</div>
le résultat ci-dessus contient un lien vers notre URL de l'image
http://199.101.98.242/media/images/66433-Terminator_3_The_Redemption-1.jpg
u peut extraire ces liens et images comme suit
ActualImages=[]# contains the link for Large original images, type of image
for a in soup.find_all("div",{"class":"rg_meta"}):
link , Type =json.loads(a.text)["ou"] ,json.loads(a.text)["ity"]
ActualImages.append((link,Type))
for i , (img , Type) in enumerate(ActualImages):
try:
req = urllib2.Request(img, headers={'User-Agent' : header})
raw_img = urllib2.urlopen(req).read()
if not os.path.exists(DIR):
os.mkdir(DIR)
cntr = len([i for i in os.listdir(DIR) if image_type in i]) + 1
print cntr
if len(Type)==0:
f = open(DIR + image_type + "_"+ str(cntr)+".jpg", 'wb')
else :
f = open(DIR + image_type + "_"+ str(cntr)+"."+Type, 'wb')
f.write(raw_img)
f.close()
except Exception as e:
print "could not load : "+img
print e
le tour est joué maintenant u peut utiliser ce script pour télécharger des images de google recherche
ou de recueillir des images de formation
pour le script entièrement fonctionnel, vous pouvez l'obtenir ici
https://gist.github.com/rishabhsixfeet/8ff479de9d19549d5c2d8bfc14af9b88
Avez-vous déjà vu un Google -résultation qui vous donne tous (peut être des millions) des résultats? Cependant, il vaut mieux utiliser l'image-search-api: http://code.google.com/intl/de/apis/imagesearch/ –
Oui Dr.Mollie. Mais quand il revient, il n'en renvoie que quelques-uns. Pas tout. Comme nous ne pouvons pas supprimer les images google. –
montrez-moi un de ces résultats avec tous les résultats (bien sûr avec plus de 20 images) –