2010-02-16 3 views
6

J'ai besoin d'un crwaler Web basé sur java open source que je peux étendre pour la comparaison de prix? Comment puis-je faire la comparaison des prix? Existe-t-il un code source ouvert pour cela?Utilisation du robot d'indexation Web pour la comparaison de prix

+0

Ne pas explorer les pages Web vous-même. Cela ne mène qu'à la douleur et aux problèmes (en termes de code et de droit). Vous devez contacter les fournisseurs de pricelist pour plus d'informations sur leurs services Web publics et ensuite en faire usage. – BalusC

+0

Problème @BalusC (termes légaux)? comment et pourquoi ? – Lite

Répondre

3

Jetez un oeil à la récolte Web, vous devrez l'utiliser est un peu bizarre et une syntaxe particulière pour le traitement des pages web, mais il devrait être assez à l'étendre à faire une comparaison des prix:

http://web-harvest.sourceforge.net/samples.php?num=2

+0

Cette application semble vraiment cool et facile à utiliser, mais malheureusement, en réalité, la performance (par mes mesures) est assez mauvaise. – javamonkey79

1

Une raison pour laquelle vous ne pouvez pas simplement obtenir vos données de l'un des centaines de sites de comparaison de prix déjà disponibles? On dirait qu'il serait plus simple de gratter nextag ou froogle ou quoi que ce soit au lieu d'écrire un robot pour gratter des milliards de sites Web de magasins.

+1

Merci pour la réponse. Oui, j'ai déjà examiné la récolte en ligne. Oui, j'avais aussi des idées sur les sites de comparaison de prix. Donc, il devrait être par un crawler droit? Ensuite, les sites de comparaison de prix vous permettent-ils de crwal leurs sites? Est-ce que j'ai râté quelque chose? Si c'est simple, tout ce dont vous avez besoin est de créer 10-20 sites Web, n'est-ce pas? – yeskay

2

Construire quelque chose qui récupère les informations de prix à partir d'un grand nombre de sites différents va être beaucoup de travail, si vous grattez dans les magasins eux-mêmes ou à partir de sites de comparaison existants.

  • La mise en page de tout le monde sera différente, vous demandant de configurer votre robot d'exploration séparément pour chacun d'entre eux.

  • Certains sites Web peuvent présenter les informations de prix de manière à rendre le grattage difficile; par exemple. en utilisant AJAX.

Certains propriétaires de sites Web seront mis les pages pertinentes dans leurs fichiers robots.txt pour vous dire de rester à l'écart. Et si vous ignorez cela, il y a diverses choses qu'ils peuvent faire pour vous rendre la vie difficile.

Scraper beaucoup de sites Web de personnes sans autorisation est susceptible de vous rendre impopulaire. Il pourrait attirer des menaces de poursuites, ou des poursuites réelles de personnes qui perçoivent que vous nuire à leur modèle d'affaires. Ou autres réponses ...

Etes-vous vraiment sûr de vouloir faire cela? Vraiment??

0

Personne ne veut que leur site soit surchargé sans en retirer aucun bénéfice. Je pense que vous devriez créer un robot d'exploration pour votre besoin. Cependant, sachez que la plupart d'entre eux peuvent vous bloquer ou ralentir vos réponses. vous devez vous comporter comme si vous n'en étiez pas un et manger leur bande passante ...

0

Quelqu'un a écrit sur les problèmes juridiques. Les problèmes juridiques ne sont pas simples. Stephen C a écrit sur les poursuites judiciaires, mais cela va dans les deux sens. Il existe un vaste corpus de lois liées aux comportements anticoncurrentiels. Si quelqu'un veut que leurs prix ne soient pas déclarés parce qu'ils sont impliqués dans la fixation des prix ou font de fausses réclamations, alors les sites Web eux-mêmes font face à des pénalités sévères. La loi n'est pas quelque chose à citer trivialement. Vous pouvez google fixation des prix et voir les amendes importantes déjà imposées à d'innombrables entreprises.

Questions connexes