2016-11-02 5 views
0
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import requests 

url = "http://www.csgolounge.com/api/mathes" 
page = requests.get(url) 
data = page.text 
soup = BeautifulSoup(data, "html.parser") 

print (data) 

Je suis en train d'utiliser ce code pour obtenir le texte de this page, mais chaque fois que j'essaie de gratter ou obtenir le texte de la page, je suis redirigé vers page d'accueil, et mon code sort le code HTML de la page d'accueil. La page que j'essaye de gratter est un dossier de .php, et pas un HTML ou un textfile. Je voudrais obtenir le texte de la page et puis extraire les données et faire ce que je veux avec lui.redirigée à la page principale en essayant d'analyser html avec python

J'ai essayé de changer les en-têtes de mon code, que le site pense que je ne suis pas un bot, mais un navigateur chrome, mais je suis toujours redirigé vers la page d'accueil. J'ai essayé d'utiliser différents parseurs html python comme BeautifulSoup, et le python construit en classe, ainsi que de nombreux autres parseurs populaires, mais ils donnent tous le même résultat.

Existe-t-il un moyen d'arrêter ceci, et d'obtenir le texte de ce lien? Est-ce une erreur dans mon code ou quoi?

Répondre

0

Tout d'abord, essayez-le sans la partie "www". Réécrire http://www.csgolounge.com/api/mathes en tant que https://csgolounge.com/api/mathes

Si cela ne fonctionne pas, essayez Selenium.

Il se peut qu'il soit bloqué car il ne peut pas traiter la partie javascript. Le sélénium peut mieux le gérer.