J'ai besoin d'un crwaler Web basé sur java open source que je peux étendre pour la comparaison de prix? Comment puis-je faire la comparaison des prix? Existe-t-il un code source ouvert pour cela?Utilisation du robot d'indexation Web pour la comparaison de prix
Répondre
Jetez un oeil à la récolte Web, vous devrez l'utiliser est un peu bizarre et une syntaxe particulière pour le traitement des pages web, mais il devrait être assez à l'étendre à faire une comparaison des prix:
Cette application semble vraiment cool et facile à utiliser, mais malheureusement, en réalité, la performance (par mes mesures) est assez mauvaise. – javamonkey79
Une raison pour laquelle vous ne pouvez pas simplement obtenir vos données de l'un des centaines de sites de comparaison de prix déjà disponibles? On dirait qu'il serait plus simple de gratter nextag ou froogle ou quoi que ce soit au lieu d'écrire un robot pour gratter des milliards de sites Web de magasins.
Merci pour la réponse. Oui, j'ai déjà examiné la récolte en ligne. Oui, j'avais aussi des idées sur les sites de comparaison de prix. Donc, il devrait être par un crawler droit? Ensuite, les sites de comparaison de prix vous permettent-ils de crwal leurs sites? Est-ce que j'ai râté quelque chose? Si c'est simple, tout ce dont vous avez besoin est de créer 10-20 sites Web, n'est-ce pas? – yeskay
Construire quelque chose qui récupère les informations de prix à partir d'un grand nombre de sites différents va être beaucoup de travail, si vous grattez dans les magasins eux-mêmes ou à partir de sites de comparaison existants.
La mise en page de tout le monde sera différente, vous demandant de configurer votre robot d'exploration séparément pour chacun d'entre eux.
Certains sites Web peuvent présenter les informations de prix de manière à rendre le grattage difficile; par exemple. en utilisant AJAX.
Certains propriétaires de sites Web seront mis les pages pertinentes dans leurs fichiers robots.txt
pour vous dire de rester à l'écart. Et si vous ignorez cela, il y a diverses choses qu'ils peuvent faire pour vous rendre la vie difficile.
Scraper beaucoup de sites Web de personnes sans autorisation est susceptible de vous rendre impopulaire. Il pourrait attirer des menaces de poursuites, ou des poursuites réelles de personnes qui perçoivent que vous nuire à leur modèle d'affaires. Ou autres réponses ...
Etes-vous vraiment sûr de vouloir faire cela? Vraiment??
Personne ne veut que leur site soit surchargé sans en retirer aucun bénéfice. Je pense que vous devriez créer un robot d'exploration pour votre besoin. Cependant, sachez que la plupart d'entre eux peuvent vous bloquer ou ralentir vos réponses. vous devez vous comporter comme si vous n'en étiez pas un et manger leur bande passante ...
Quelqu'un a écrit sur les problèmes juridiques. Les problèmes juridiques ne sont pas simples. Stephen C a écrit sur les poursuites judiciaires, mais cela va dans les deux sens. Il existe un vaste corpus de lois liées aux comportements anticoncurrentiels. Si quelqu'un veut que leurs prix ne soient pas déclarés parce qu'ils sont impliqués dans la fixation des prix ou font de fausses réclamations, alors les sites Web eux-mêmes font face à des pénalités sévères. La loi n'est pas quelque chose à citer trivialement. Vous pouvez google fixation des prix et voir les amendes importantes déjà imposées à d'innombrables entreprises.
- 1. Comparaison de prix Développement de frontend
- 2. Script de comparaison des prix pour les produits
- 3. Aide pour le robot d'indexation Web requise
- 4. construire un robot d'indexation Web
- 5. Utilisation de la comparaison alternative dans HashSet
- 6. Recommandations de langage pour un robot d'indexation Web efficace
- 7. robot php pour la maintenance de db?
- 8. Qu'est-ce qu'un outil pour la comparaison de pages Web?
- 9. C#: projet de robot
- 10. Performances createScreenCapture du robot Java
- 11. Écriture d'un pseudo-robot pour les statistiques Web
- 12. CeeBot: obtenir l'inclinaison du robot
- 13. Python asyncore ou threadpool pour le robot d'indexation Web?
- 14. comparaison de la liste
- 15. Utilisation du polymorphisme lors de la génération de pages Web?
- 16. Quel robot Web pour extraire et analyser les données d'environ un millier de sites Web?
- 17. Grattez un prix sur un site Web
- 18. RegEx pour les prix?
- 19. Utilisation automatique du client Web de temporisation
- 20. MySQL: type de colonne préféré pour les prix (du produit)?
- 21. Regex pour le prix
- 22. Comparaison du mécanisme d'authentification
- 23. Utilisation de la comparaison similaire sur plusieurs modèles
- 24. Échantillon de robot Web basé sur le réseau
- 25. Impact de la résolution d'un prix du millénaire Problème
- 26. Utilisation d'outils de comparaison externes avec Mercurial
- 27. Robot/filtre d'image de Spam pour Rails
- 28. Utilisation du flash pour la visioconférence
- 29. Librairie libre comme la classe Robot de Java pour C++
- 30. Limiter l'accès du robot pour les valeurs (spécifiques) de la chaîne de requête (paramètre)?
Ne pas explorer les pages Web vous-même. Cela ne mène qu'à la douleur et aux problèmes (en termes de code et de droit). Vous devez contacter les fournisseurs de pricelist pour plus d'informations sur leurs services Web publics et ensuite en faire usage. – BalusC
Problème @BalusC (termes légaux)? comment et pourquoi ? – Lite