2017-10-16 8 views
0

Je sais déjà que vous pouvez configurer crawling pour être resumable.Est-il possible de mettre en pause et de reprendre l'exploration à l'aide de crawler Java crawler4j?

Mais est-il possible d'utiliser une fonctionnalité de reprise pour suspendre le processus d'analyse et reprendre l'analyse par la suite? Par exemple. Je peux gracieusement shutdown ramper avec la méthode d'arrêt du robot d'exploration et avec le jeu de paramètres resumable à true, puis recommencez l'exploration.

Est-ce que cela fonctionnera de cette façon, parce que le but principal du paramètre resumable est de gérer les accidents accidentels du crawler. Y at-il une autre ou une meilleure façon de réaliser cette fonctionnalité avec crawler4j?

Répondre

1

Si vous définissez le paramètre reproposable sur true, le Frontier ainsi que le DocIdServer stockent leurs files d'attente dans le dossier de stockage défini par l'utilisateur.

Cela fonctionne soit pour un plantage, soit pour un arrêt programmatique. Dans les deux cas, le dossier de stockage doit être le même.

Voir également the related issue sur le numéro de suivi officiel