2009-08-22 11 views
0

J'adore Ruby et son framework, mais je ne pense pas que Ruby On Rails soit le meilleur choix pour développer un Feed-Parser et un Indexer. Peut-être que Python ou Java sont de meilleurs choix. Quelle langue suggérez-vous?Bon langage pour Spider et Indexer

Répondre

1

Un flux (RSS?) Est généralement assez bien structuré (par rapport à une page Web normale, au moins). Découvrez Web Harvest, un analyseur DOM Java/bean shell (entre autres choses). Vous pouvez l'utiliser pour automatiser l'extraction de données sur Internet. Il y a un langage spécifique au domaine (défini en XML) que vous devrez apprendre. C'est une courbe d'apprentissage peut-être un peu raide, mais j'ai senti que ça en valait la peine.

0

Je ne suis pas très familier avec Java, mais je peux dire que Python est très bien adapté pour le travail.

Il existe ce module d'analyseur XML très rapide appelé BeautifulStoneSoup, que vous pouvez utiliser. Il fait partie de la bibliothèque BeautifulSoup. Et si vous cherchez seulement un indexeur simple, Python a un moteur sqlite intégré qui est aussi léger et très rapide.

Questions connexes