2009-02-06 5 views
3

Je développe un moteur de recherche de commerce électronique qui vous permet de rechercher des produits dans un grand nombre de sites de commerce électronique.Rédaction d'un programme C# qui scanne le site de commerce électronique et des extraits photos produits + prix + description de leur

Comment aborder la question?

je besoin d'une application qui sera en mesure de scanner les sites Web, analyser leur code HTML et déterminer lequel des images du site sont des images de produits, qui sont des descriptions de produits, qui sont les prix des produits.

Serait heureux d'entendre une idée, un exemple.

Merci d'avance. Ma question n'est pas comment obtenir le HTML à partir des sites Web (ce qui s'appelle le scraping d'écran) mais plus sur comment analyser cette information et comprendre lequel du html contient les données réelles que je recherche, et qui n'est pas.

+0

Cela s'appelle Screen-Scraping. Voir l'étiquette – Cerebrus

+0

Ressemble à http://www.shopbot.com.au/ – Simon

+0

Semble les magasins doivent payer pour s'inscrire sur shopbot. Modèle intéressant. http://www.shopbot.com.au/sh-shopregister.html – Simon

Répondre

2

Vous pouvez trouver this thread utile dans votre quête. J'avais décrit les étapes de base là-bas. Voici le lien vers toutes les questions marquées "Screen-scraping" sur SO. En outre, beaucoup de matériel sur le web - Google.

1

La plupart des sites que vous seriez racler (plus correctement web-scraping) ont des API partenaires pour offres de type « revendeur ». Pour contourner cela avec le scrappage de l'écran, votre adresse IP sera rapidement bloquée par les serveurs de trafic, et potentiellement vous mettre dans une situation légale.

C'est au mieux éthique douteuse.

+0

Comment diable cela a-t-il un downvote? Je * garantis * quiconque essaye ce que l'OP essaie de faire se fermera rapidement. – annakata

Questions connexes