2011-12-28 3 views
0

Je serai peu bavard de préciser clairement le problème, donc s'il vous plaît soyez patient :)aide Nutch chercher Mots clés particuliers HTML

Supposons que je l'URL de base suivante: http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
qui énumère un certain nombre de produits avec un description concise. Chaque produit répertorié possède une URL redirigeant vers une page d'informations sur les produits, comme: http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

Maintenant, mes exigences sont de (par exemple) chercher le nom, le prix et les informations produit pour chacun de ces produits. Comment puis-je y parvenir en utilisant Nutch? Est-ce que Nutch est requis/une bonne option pour cela ou juste un simple simple wget + propre analyseur HTML est une meilleure façon d'y aller?

Note: Je dois faire cela pour plusieurs pages avec la mise en page très différentes et que l'entrée sera l'URL et que les balises HTML pour aller chercher de l'URL

Répondre

0

travaillant sur le même problème. Cependant, il semble comme il y a quelques étapes fatigantes pour atteindre l'objectif:

1 crawl 2-index 3 obtenir le code html brut par -readseg 4 lire le fichier pour l'information que vous voulez

Ainsi, Nutch ne semble pas être le bon moyen de le faire. Avez-vous réussi à trouver une réponse?