Je ne suis pas si nouveau dans les langages de programmation (python) mais je n'ai aucune idée de l'endroit où commencerai-je à faire un bot ou un scraper en utilisant python ?. devrais-je étudier dans la programmation cgi? ou le scraper fonctionne-t-il simplement en utilisant un script python? Dois-je créer un serveur pour cela? Je n'ai aucune idée de cela ... merci pour l'aideOù commencerai-je à faire un grattoir ou un bot en utilisant python?
Répondre
Voici quelques liens pour vous aider à démarrer.
screen scraping implique beaucoup d'expressions régulières pour obtenir les données exactes que vous voulez. Vous voulez également savoir quel type de données vous souhaitez analyser et comment vous souhaitez les stocker.
Pour obtenir les pages, vous aurez besoin d'utiliser des bibliothèques telles que urllib (ou urllib2) et des expressions régulières (re) ou un bon script pour utiliser est beautifulsoup pour faire votre sale boulot (http://www.crummy.com/software/BeautifulSoup/)
Si vous voulez construire un bot pur qui fait ce que font les moteurs de recherche, vous devez également construire un bot assez intelligent pour savoir que vous ne continuez pas à envoyer un ping au même domaine en continu (entraîne une attaque DOS).
Si vous tentez d'accéder à des sites Web qui utilisent abondamment JavaScript, vous pourriez, dans l'ensemble, trouver Selenium plus facile. Selenium est un serveur qui contrôle les navigateurs Web actuels sur votre serveur, et une bibliothèque cliente (y compris un port Python) qui vous permet de contrôler les navigateurs et d'inspecter les pages qui s'y trouvent. Il est nettement plus rapide de configurer (et de comprendre) la bibliothèque du serveur et du client (et de s'assurer que vous avez un navigateur fonctionnel sur votre système), mais si le site Web fait beaucoup de choses en JavaScript, votre code de grattage réel pourrait être beaucoup moins poilu.
- 1. Par où commencer avec un bot web?
- 2. Faire un Bot Twitter en PHP?
- 3. Comment faire un bot pour naviguer sur un site?
- 4. Difficulté à construire un bot irc via Bot :: BasicBot
- 5. Construire un bot IRC en Java
- 6. écran RSS grattoir
- 7. Développer un moteur de recherche vertical et un grattoir
- 8. Comment puis-je faire cela en utilisant un Python Regex?
- 9. Où héberger un service Python ou Java périodique?
- 10. Accéder à un attribut en utilisant une variable en Python
- 11. étendre un bot irc avec des modules
- 12. faire un blog en utilisant php
- 13. Comment faire un RNG sélectif pour un jeu en Python?
- 14. Comment copier un fichier sur un serveur distant en Python en utilisant SCP ou SSH?
- 15. comment construire un bot pour le jeu flash en ligne?
- 16. Un bot Java qui utilise l'API Skype
- 17. Télécharger un fichier image en utilisant python
- 18. Envoyer un fichier python en utilisant httplib
- 19. Web bot en C++/PHP
- 20. Enregistrement de Python en utilisant un décorateur
- 21. Envoyer un SMS récupéré en utilisant Python
- 22. Maintenir la session dans un grattoir de page Eventlet?
- 23. Comment créer un chat-bot gmail?
- 24. Comment obtenir un UID spécifique à un périphérique en utilisant Python dans ASE sur Android?
- 25. Faire un fichier SWF un lien en utilisant Jquery
- 26. Avez-vous déjà été capable de créer un BOT en utilisant Office Communicator 2007 R2
- 27. PHP Détection d'un comportement semblable à un bot
- 28. Comment faire un "OU" pour mon regex python?
- 29. Comment filtrer un fichier en utilisant un modèle dans un autre fichier en utilisant Python?
- 30. Comment renommer un fichier en utilisant Python
Vote pour fermer aussi large. –
Eh bien, je suppose que oui, seulement parce que l'OP n'a jamais accepté de réponse et qu'il n'a pas été utilisé depuis, alors il a toujours été "ouvert" depuis. –