2016-09-21 1 views
0

Donc, je suis en train de gratter la table de statistiques divers de ce site http://www.basketball-reference.com/leagues/NBA_2016.html en utilisant python et belle soupe. C'est le code de base jusqu'ici je veux juste voir si c'est même en train de lire la table mais quand je fais imprimer la table je n'en reçois aucun.Parsing NBA référence avec python belle soupe

from bs4 import BeautifulSoup 
import requests 
import pandas as pd 

url = "http://www.basketball-reference.com/leagues/NBA_2016.html" 
r = requests.get(url) 
data = r.text 
soup = BeautifulSoup(data) 

table = soup.find('table', id='misc_stats') 
print table 

Lorsque j'inspecte le code HTML sur la page Web lui-même, la table que je veux apparaît avec ce symbole devant <!-- et le texte HTML est vert pour la partie. Que puis-je faire?

Répondre

2

<!-- est le début d'un commentaire et --> est la fin en HTML il suffit de supprimer les commentaires avant de l'analyser:

from bs4 import BeautifulSoup 
import requests 
comm = re.compile("<!--|-->") 

html = requests.get("http://www.basketball-reference.com/leagues/NBA_2016.html").content 
cleaned_soup = BeautifulSoup(re.sub("<!--|-->","", html)) 


tableStats = cleaned_soup.find('table', {'id':'team_stats'}) 

print(tableStats) 
+0

Merci un bouquet. J'ai bien travaillé. – John