2017-09-20 1 views
0

Je récupère des données d'offres d'emploi à partir d'un site Web à l'aide de BeautifulSoup. J'ai un code de travail qui fait ce dont j'ai besoin, mais il ne fait que gratter la première page des offres d'emploi. J'ai du mal à comprendre comment mettre à jour l'URL de façon itérative pour gratter chaque page. Je suis nouveau à Python et ai regardé quelques solutions différentes aux questions semblables, mais n'ai pas compris comment les appliquer à mon URL particulier. Je pense que j'ai besoin de mettre à jour l'URL de manière itérative ou en quelque sorte, cliquez sur le bouton suivant, puis boucle mon code existant à travers chaque page. J'apprécie toutes les solutions.Comment faire une boucle sur chaque page du site Web pour le scrappage Web avec BeautifulSoup

url: https://jobs.utcaerospacesystems.com/search-jobs

+1

ouvrez l'onglet réseau de la console de développement du navigateur, et vous verrez qu'il envoie des requêtes ajax en arrière-plan – Fabricator

Répondre

0

D'abord, BeautifulSoup n'a rien à voir avec Geting pages web - vous obtenez la page Web vous-même, puis le nourrir à BS4 pour le traitement.

Le problème avec la page que vous avez liée, c'est que c'est javascript - il ne rend correctement dans un navigateur (ou toute autre machine virtuelle javascript).

@Fabricator est sur la bonne voie - vous aurez besoin de regarder la console développeur et de voir ce que les requêtes ajax que le js envoie au serveur. Dans ce cas, regardez également les paramètres de la chaîne de requête, qui incluent un paramètre appelé CurrentPage - c'est probablement celui sur lequel vous voulez vous concentrer.

+0

Merci ... Je ne crois pas que mes connaissances en codage soient assez avancées pour accomplir cela, mais bon! Au moins, j'ai gratté ce dont j'avais besoin de la première page (haha) – Christian