Le système parallèle ou le système distribué est-il meilleur pour les robots d'indexation de sites Web et les indexeurs Web lorsqu'ils sont développés en Java? Quels sont les cadres disponibles?indexeur Web utilisant Java
2
A
Répondre
6
L'un des meilleurs combos robot/indexeur que vous trouverez jamais pour Java est Nutch, qui est maintenant un projet Apache (voir Wiki) et donc open source.
Caractéristiques:
- récupération, analyse et indexation en parallèle et/òû distribués
- Plugins: texte brut, HTML, XML, ZIP, OpenDocument (OpenOffice.org), Microsoft Office (Word , Excel, Powerpoint), PDF, JavaScript, RSS, RTF, MP3 (tags ID3)
- ontologie
- Clustering
- MapReduce
- système de fichiers distribué (via Hadoop)
- LienBase-graph
- authentification NTLM (Windows/Exchange/etc)
1
Nutch est imbattable. Un autre lib plus simple que j'ai utilisé avec succès dans les projets est https://crawler.dev.java.net/. Vous trouverez des exemples sur https://crawler.dev.java.net/samples.html.
Questions connexes
- 1. C# Indexeur dynamique
- 2. Indexeur sur IList
- 3. Linq en utilisant le produit et un indexeur
- 4. Web SSO utilisant Java et SAML 2.0
- 5. Développement Web en Java en utilisant Netbeans
- 6. Service Web Java Async REST utilisant Jersey?
- 7. Courant NHibernate et classe avec cartographie indexeur
- 8. Aucun indexeur créé par Djapian pour Django
- 9. question sur un simple indexeur (C#)
- 10. Indexeur avec deux clés en python
- 11. surcharge indexeur pour avoir la classe foreach'able
- 12. Indexeur faisant partie de l'interface en C#
- 13. java web start JAVA_HOME
- 14. Web Service lancer exception en utilisant Axis2 Java
- 15. Intégration de siebel et java en utilisant les services web
- 16. Java vs C++: Performance dans l'application utilisant les services Web
- 17. Services Web utilisant J2ME et Java Version 1.4
- 18. Exemple d'application Java ou .NET utilisant des services Web?
- 19. temps de chargement de la page Web en utilisant java
- 20. java lire une page web en utilisant url
- 21. Navigateur Java utilisant mozilla webclient
- 22. Microsoft Client - Java Web Service
- 23. Client de services Web Java
- 24. Question SSL java web application
- 25. Application Web Java
- 26. Java, swt et web
- 27. Web Service Client Java
- 28. Initialisation Java Web App
- 29. service Web WCF Java
- 30. services web java