2017-10-18 40 views
1

J'essaie d'analyser l'image à partir de certains canaux Telegram, par exemple https://t.me/versusbattlerus, l'image est sur ce bloc "img class =" tgme_page_photo_image "src =" https: // ... "mais chaque méthode de temps retourne différents et non des liens de travail, pourquoi cela se produit? je suis en utilisant python 3.6, urllib, beautifulsoup4Analyser le retour http rompu lien

méthode

import urllib.request 
from bs4 import BeautifulSoup 


def get_html(url): 
    response = urllib.request.urlopen(url) 
    return response.read() 


def parse(html): 
    soup = BeautifulSoup(html, 'lxml') 
    image = soup.find('img', class_="tgme_page_photo_image") 
    print(image) 
    #return image 


def main(): 
    parse(get_html('https://t.me/versusbattlerus')) 


if __name__ == '__main__': 
    main() 
+1

Cela fonctionne bien avec moi – chad

Répondre

0

ce script fonctionne sur moi, s'il vous plaît fournir le lien « cassé » pour le test

Si cela a des bugs, essayez simplement Linux solution Shell:

curl -s https://t.me/SeanChannel |grep -oP '"og:image" content="\K.+(?=")' 
+0

désolé, tu veux dire mon script de travail pour vous? Donc, vous pouvez ouvrir l'image droite? –

+0

@ T3h_vermili0n Ouais, je peux l'ouvrir – Sean