Comment puis-je gratter un site avec plusieurs pages en utilisant beautifulsoup et python?

J'essaye de gratter un site Web. Ceci est une continuation de cela soup.findAll is not working for table Comment puis-je gratter un site avec plusieurs pages en utilisant beautifulsoup et python?

J'ai été en mesure d'obtenir les données nécessaires, mais le site a plusieurs pages qui varient selon le jour. Certains jours, il peut y avoir 20 pages et 33 pages sur un autre. Je suis en train de mettre en œuvre cette solution en obtenant le dernier élément Page How to scrape the next pages in python using Beautifulsoup mais quand je suis arrivé à la div téléavertisseurs sur le site que je veux gratter je trouve ce format

<a class="ctl00_cph1_mnuPager_1" href="javascript:__doPostBack('ctl00$cph1$mnuPager','32')">32</a> 
    <a class="ctl00_cph1_mnuPager_1">33</a>

comment puis-je gratter toutes les pages le site étant donné que le nombre de pages change tous les jours? par la façon dont l'URL de la page ne change pas avec les changements de page.

Source

2017-09-12 e.iluf

Est-il possible de révéler le lien de ce site pour obtenir une réponse rapide probablement avec une solution de contournement? – SIM

BS4 ne résoudra pas ce problèmes à tout moment, à cause de cela ne peut pas fonctionner Js
D'abord, vous pouvez essayer d'utiliser Scrapy et ce answer
Vous pouvez utiliser Sélénium pour elle

Source

2017-09-12 20:31:32 AndMar

Je voudrais apprendre à utiliser Selenium - c'est simple et efficace dans la gestion des situations où BS4 ne fera pas le travail.

Vous pouvez l'utiliser pour vous connecter à des sites, entrer des clés dans des zones de recherche et cliquer sur les boutons à l'écran. Sans oublier, vous pouvez regarder ce qu'il fait avec un navigateur. Je l'utilise même lorsque je fais quelque chose en BS4 pour mieux suivre les progrès d'un projet de grattage.

Source

2017-09-12 21:18:53

Comme certaines personnes l'ont mentionné, vous pourriez vouloir regarder le sélénium. J'ai écrit un article de blog pour faire quelque chose comme ça il y a un certain temps: http://danielfrg.com/blog/2015/09/28/crawling-python-selenium-docker/

Maintenant les choses vont beaucoup mieux avec le chrome et le firefox sans tête.

Source

2017-09-12 21:24:08 danielfrg

Comment puis-je gratter un site avec plusieurs pages en utilisant beautifulsoup et python?

Répondre

Questions connexes