J'adore Ruby et son framework, mais je ne pense pas que Ruby On Rails soit le meilleur choix pour développer un Feed-Parser et un Indexer. Peut-être que Python ou Java sont de meilleurs choix. Quelle langue suggérez-vous?Bon langage pour Spider et Indexer
Répondre
Je pense que Ruby est très bien pour ces types de tâches:
- http://rubyrss.com/
- http://www.ruby-doc.org/stdlib/libdoc/rss/rdoc/index.html
- http://railscasts.com/episodes/173-screen-scraping-with-scrapi
Si vous êtes à l'aise avec Ruby Je ne vois aucune raison de débourser vers Java, Python et el. pour la plupart des tâches. Gardez à l'esprit que de nombreuses bibliothèques Ruby reposent sur des implémentations natives.
Un flux (RSS?) Est généralement assez bien structuré (par rapport à une page Web normale, au moins). Découvrez Web Harvest, un analyseur DOM Java/bean shell (entre autres choses). Vous pouvez l'utiliser pour automatiser l'extraction de données sur Internet. Il y a un langage spécifique au domaine (défini en XML) que vous devrez apprendre. C'est une courbe d'apprentissage peut-être un peu raide, mais j'ai senti que ça en valait la peine.
Je ne suis pas très familier avec Java, mais je peux dire que Python est très bien adapté pour le travail.
Il existe ce module d'analyseur XML très rapide appelé BeautifulStoneSoup, que vous pouvez utiliser. Il fait partie de la bibliothèque BeautifulSoup. Et si vous cherchez seulement un indexeur simple, Python a un moteur sqlite intégré qui est aussi léger et très rapide.
- 1. Spider Solitaire code
- 2. C# Indexer propriété Question
- 3. Comment indexer et rechercher des fichiers .doc
- 4. Comment indexer et rechercher le référentiel subversion
- 5. Qu'est-ce qu'un bon langage de script pour les opérations de base des fichiers?
- 6. Qu'est-ce qu'un bon langage de balisage à utiliser pour les tests?
- 7. C# Indexer Utilisation
- 8. Ce qui serait un bon Delphi lexer/parser pour le fichier de langage Javascript?
- 9. Balises Struts et langage d'expression
- 10. Comment indexer et rechercher des entités commerciales en utilisant Lucene.Net?
- 11. Avantages et inconvénients du langage de balisage pour l'interface utilisateur
- 12. Langage omniprésent - terme pour les développeurs et les utilisateurs
- 13. HTML parser ... Mon projet récent a besoin d'un Web Spider
- 14. Comment dois-je indexer pour un monde simple de rectangles?
- 15. va googlebot indexer mon site?
- 16. nexus indexer (macosx-leopard) issue
- 17. Outils et références de langage d'assemblage
- 18. Obtenir Google pour indexer les pages PHP dynamiques
- 19. Quand est-ce bon d'utiliser le langage de script intégré comme Lua
- 20. livres bon et facile/tutoriels pour apprendre WCF derniers trucs
- 21. Un langage dynamique pour apprendre par curiosité
- 22. Bon motif pour exécuter des tests automatisés de sélénium dans HTTP et HTTPS?
- 23. Demander des jetons Lucene sans indexer
- 24. Un bon navigateur d'arbre de projet pour Emacs?
- 25. Comment résoudre "Doit être MarshalByRefObject" dans un langage amputé bon mais à héritage multiple comme C#?
- 26. Langage de balisage léger pour Python
- 27. Indexer les jetons bigrams en Lucene
- 28. Quelle est la relation entre le langage d'assemblage et le langage machine?
- 29. Transférer "-J-Duser.language" dans javac via ant pour s'assurer que les erreurs de compilation sont signalées dans le bon langage
- 30. bon vérificateur d'orthographe pour IE6?