comment faire nutch système de fichiers de crawl?

pas basé sur http,comment faire nutch système de fichiers de crawl?

comme http://localhost:81 et ainsi de suite,

mais ramper directement un répertoire sur le système de fichiers local,

est-il sortir?

Source

2009-06-02 omg

nutch dispose de l'analyse intranet disponible. vous pouvez lire les détails here

Source

2009-06-12 18:25:53

De l'Nutch Wiki:

Comment puis-je index mon système de fichiers local?

http://wiki.apache.org/nutch/FAQ#head-c721b23b43b15885f5ea7d8da62c1c40a37878e6

1) vide sanitaire urlfilter.txt a besoin d'un changement pour autoriser fichier: URL sans http: suivant les, sinon il ne sera pas non plus quoi que ce soit d'index, ou il va sauter de votre disque sur sites Internet. Modifiez cette ligne:

-^(file|ftp|mailto|https): 

    to this: 

    -^(http|ftp|mailto|https):

2) vide sanitaire urlfilter.txt peut avoir des règles au fond de rejeter certaines URL. Si elle a ce fragment il est probablement correct:

# accept anything else +.*

3) J'ai changé nutch.xml inclure les éléments suivants:

<Parameter override="false" name="plugin.includes" value="protocol-file|protocol-http|urlfilter-regex|parse-(msword|pdf|text|html|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)"/>

Source

2009-07-12 03:39:23

regex-urlfilter.txt a besoin d'un changement – gmlvsv

comment faire nutch système de fichiers de crawl?

Répondre

Questions connexes