2009-06-13 8 views
1

IAM essayant de configurer le nutch pour exécuter le crawling multithread.Nutch Multithreading

Cependant, je suis confronté à un problème. Je ne suis pas capable d'exécuter crawl avec plusieurs threads, j'ai modifié le fichier nutch-site.xml pour utiliser 25 threads mais je ne peux voir que 1 Threads en cours d'exécution.

<property> 
    <name>fetcher.threads.fetch</name> 
    <value>25</value> 
    <description>The number of FetcherThreads the fetcher should use. 
    This is also determines the maximum number of requests that are 
    made at once (each FetcherThread handles one connection).</description> 
</property> 

<property> 
    <name>fetcher.threads.per.host</name> 
    <value>25</value> 
    <description>This number is the maximum number of threads that 
    should be allowed to access a host at one time.</description> 
</property> 

Je reçois toujours la valeur de activeThreads = 25, spinWaiting = 24, fetchQueues.totalSize = une certaine valeur.

Quel est le sens de ceci, pouvez-vous s'il vous plaît expliquer quel est le problème et comment puis-je le résoudre.

J'apprécierai grandement votre aide.

Merci, Sumit

Répondre

2

Je pense que votre problème est lié à un bug connu w/la nouvelle fetcher Nutch. Voir NUTCH-721.

Vous pouvez essayer d'utiliser OldFetcher (si vous avez Nutch 1.0) pour voir si cela résout votre problème.

- Ken

+2

salut ken, merci pour votre réponse, la question était avec l'hôte par ip qui n'a pas été réglé correctement, quand je l'ai mis à 25 son bon fonctionnement maintenant. J'aime vraiment votre crawler bixo, je suis un fan de celui-ci et je l'utilise dans beaucoup de mes projets :) –