2013-04-02 5 views
0

Supposons que j'ai deux machines différentes qui explorent deux domaines différents en utilisant nutch.Comment fusionner deux crawldb dans nutch

Maintenant, je veux fusionner leur crawldb en un. Comment puis je faire ça ?

Je l'ai lu quelque part - Est-ce que la commande:

bin/nutch mergedb <crawldb1> <crawldb2> 

faire ce que je veux faire?

En outre, en cas permet de dire que l'un de ces crawldb est généré par un site pour le site Web hébergé localement c.-à-dire wikipedia se rampé et stocké comme le crawldb1

et un autre site permet de dire stackoverflow a aussi le même .

Dans ce cas, puis-je fusionner ces deux crawldb en un seul, mais qui les modifie de manière à refléter leurs URLs réels et non le relatif (je veux dire l'URL avec le nouvel emplacement de la base de données). Désolé, si je ne suis pas très clair dans la description. Merci d'avance

Répondre

0

Il n'y a qu'une seule façon de savoir si cela fonctionne, faites un essai. Et lisez d'abord le manuel, il vous manque votre paramètre DB fusionné. Voir http://wiki.apache.org/nutch/bin/nutch%20mergedb

+0

Merci pour la réponse –

+0

Veuillez accepter ma réponse. – Claude

+0

Désolé mais je ne pense pas avoir encore ma réponse. –

0

Vous pouvez fusionner les deux URL de toutes les URL dans crawldb sont toujours stockées dans leur intégralité. Nutch ne stocke jamais d'URL relative à quoi que ce soit.

La commande que vous avez écrit fusionnerait crawldb2 dans crawldb1

si vous souhaitez fusionner crawldb localcrawldb et stackoverflowcrawldb

vous écrivez

bin/Nutch crawldb mergedcrawldb localcrawldb stackoverflowcrawldb

et les deux crawldbs sera fusionné dans le fichier mergedcrawldb.