2

Le système parallèle ou le système distribué est-il meilleur pour les robots d'indexation de sites Web et les indexeurs Web lorsqu'ils sont développés en Java? Quels sont les cadres disponibles?indexeur Web utilisant Java

Répondre

6

L'un des meilleurs combos robot/indexeur que vous trouverez jamais pour Java est Nutch, qui est maintenant un projet Apache (voir Wiki) et donc open source.

Caractéristiques:

  1. récupération, analyse et indexation en parallèle et/òû distribués
  2. Plugins: texte brut, HTML, XML, ZIP, OpenDocument (OpenOffice.org), Microsoft Office (Word , Excel, Powerpoint), PDF, JavaScript, RSS, RTF, MP3 (tags ID3)
  3. ontologie
  4. Clustering
  5. MapReduce
  6. système de fichiers distribué (via Hadoop)
  7. LienBase-graph
  8. authentification NTLM (Windows/Exchange/etc)