Supposons que j'ai deux machines différentes qui explorent deux domaines différents en utilisant nutch.Comment fusionner deux crawldb dans nutch
Maintenant, je veux fusionner leur crawldb en un. Comment puis je faire ça ?
Je l'ai lu quelque part - Est-ce que la commande:
bin/nutch mergedb <crawldb1> <crawldb2>
faire ce que je veux faire?
En outre, en cas permet de dire que l'un de ces crawldb est généré par un site pour le site Web hébergé localement c.-à-dire wikipedia se rampé et stocké comme le crawldb1
et un autre site permet de dire stackoverflow a aussi le même .
Dans ce cas, puis-je fusionner ces deux crawldb en un seul, mais qui les modifie de manière à refléter leurs URLs réels et non le relatif (je veux dire l'URL avec le nouvel emplacement de la base de données). Désolé, si je ne suis pas très clair dans la description. Merci d'avance
Merci pour la réponse –
Veuillez accepter ma réponse. – Claude
Désolé mais je ne pense pas avoir encore ma réponse. –