2017-09-28 2 views
0

J'ai un certain site Web que j'essaye de gratter sur une base fréquente. J'attrape tout le contenu que je voudrais, cependant, il y a trop d'éléments dans la soup.find_all (même après avoir essayé de spécifier avec span et class_ =).Comment ne prendre qu'une quantité limitée dans soup.find_all?

a = soup.find_all('span', class_=re.compile("headline") 

où len (a) = 500. Comment puis-je programmer la logique telle que je ne peux saisir les 10 premiers titres par opposition à 500? On dirait que saisir tout 500 fait que mon programme est en retard, ce qui n'est pas idéal.

Répondre

1

Essayez d'utiliser le paramètre de limite comme par Beautiful Soup DOCS

soup.find_all('title', limit=1) 
# [<title>The Dormouse's story</title>] 
+0

si simple et élégante, je vous remercie! Acceptera votre réponse après la restriction de temps – hiimarksman

+0

@hiimarksman Merci! – cwalsh003