2014-07-13 1 views
4

J'ai fait quelques expériences avec nutch pour explorer des sites Web qui n'avaient pas d'appels ajax et j'ai obtenu toutes les données. J'ai exécuté les étapes suivantes pour obtenir les données.Nutch 2.x ne pas explorer des sites Web comme flipkart et jabong

  1. user @ localhost: ~/sample/nutch/exécution/local/bin $ ./nutch injectent /path/to/the/seed.txt
  2. $: ./nutch générer -batchid 321
  3. $: ./nutch chercher 321
  4. $: ./nutch analyser 321
  5. $: ./nutch updatedb

Je HBase que le stockage qui stocke des fichiers sur HDFS. Si j'exécute ces 5 étapes, il me donne toutes les données si l'URL est http://www.naaptol.com/brands/nokia/mobile-phones.html mais si je change à http://www.flipkart.com/mens-footwear/shoes/sports-shoes/pr?sid=osp,cil,nit,1cu&otracker=hp_nmenu_sub_men_0_Sports%20Shoes il ne me donne rien

Mon fichier nutch-site.xml:

<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 

<!-- Put site-specific property overrides in this file. --> 

<configuration> 
     <property> 
       <name>storage.data.store.class</name> 
       <value>org.apache.gora.hbase.store.HBaseStore</value> 
       <description>Default class for storing data</description> 
     </property> 
     <property> 
       <name>http.agent.name</name> 
       <value>com.datametica.agent</value> 
       <description>this is just an agent name</description> 
     </property> 
     <property> 
       <name>http.robots.agents</name> 
       <value>datametica_robot</value> 
       <description>this is just a robot</description> 
     </property> 
     <property> 
       <name>plugin.folders</name> 
       <value>/home/sachin/source_codes/svn/nutch/nutch_2.x/build/plugins</value> 
     </property> 
</configuration> 

Répondre

3

Le regex- urlfilter blocs urls qui ont des paramètres querystring:

sauter URL contenant certains caractères comme les requêtes probables, etc.

-

[* @ =?!] 10

Modifier ce fichier pour que urls avec des paramètres querystring sont analysés:

ignorer les URL contenant certains caractères comme les requêtes probables, etc.

- [* @!]

Nutch manque probablement le soutien pour l'exploration Ajax page. Voir this

vous pouvez probablement regarder https://issues.apache.org/jira/browse/NUTCH-1323

+0

merci l'homme il fonctionne, mais j'ai un autre problème quand je suis en cours d'exécution nutch il obtient les données, mais pas html en cas de http: //www.flipkart. com/mens-chaussures/chaussures/sports-chaussures/pr? sid = osp, cil, nit, 1cu & otracker = hp_nmenu_sub_men_0_Sports% 20Shoes mais il me donne le contenu html dans le cas de http://www.naaptol.com/brands/nokia/ mobile-phones.html faites moi savoir si vous savez quelque chose. – saching

+0

Sachin, vous devez accepter la réponse donnée par d'autres. Vous pouvez poser autant de questions que vous le souhaitez. Mais ce sera bien si vous donnez du crédit à ceux qui ont déjà répondu à vos questions .... –

Questions connexes