J'ai fait quelques expériences avec nutch pour explorer des sites Web qui n'avaient pas d'appels ajax et j'ai obtenu toutes les données. J'ai exécuté les étapes suivantes pour obtenir les données.Nutch 2.x ne pas explorer des sites Web comme flipkart et jabong
- user @ localhost: ~/sample/nutch/exécution/local/bin $ ./nutch injectent /path/to/the/seed.txt
- $: ./nutch générer -batchid 321
- $: ./nutch chercher 321
- $: ./nutch analyser 321
- $: ./nutch updatedb
Je HBase que le stockage qui stocke des fichiers sur HDFS. Si j'exécute ces 5 étapes, il me donne toutes les données si l'URL est http://www.naaptol.com/brands/nokia/mobile-phones.html mais si je change à http://www.flipkart.com/mens-footwear/shoes/sports-shoes/pr?sid=osp,cil,nit,1cu&otracker=hp_nmenu_sub_men_0_Sports%20Shoes il ne me donne rien
Mon fichier nutch-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
<description>Default class for storing data</description>
</property>
<property>
<name>http.agent.name</name>
<value>com.datametica.agent</value>
<description>this is just an agent name</description>
</property>
<property>
<name>http.robots.agents</name>
<value>datametica_robot</value>
<description>this is just a robot</description>
</property>
<property>
<name>plugin.folders</name>
<value>/home/sachin/source_codes/svn/nutch/nutch_2.x/build/plugins</value>
</property>
</configuration>
merci l'homme il fonctionne, mais j'ai un autre problème quand je suis en cours d'exécution nutch il obtient les données, mais pas html en cas de http: //www.flipkart. com/mens-chaussures/chaussures/sports-chaussures/pr? sid = osp, cil, nit, 1cu & otracker = hp_nmenu_sub_men_0_Sports% 20Shoes mais il me donne le contenu html dans le cas de http://www.naaptol.com/brands/nokia/ mobile-phones.html faites moi savoir si vous savez quelque chose. – saching
Sachin, vous devez accepter la réponse donnée par d'autres. Vous pouvez poser autant de questions que vous le souhaitez. Mais ce sera bien si vous donnez du crédit à ceux qui ont déjà répondu à vos questions .... –