2011-08-10 4 views
1

Je veux analyser la page Web (catalogue) en utilisant des bibliothèques Ruby pour cela et le stocker dans la base de données. Actuellement, il m'est difficile de choisir quel type de bibliothèque est le mieux adapté à ce type de projet. Je connais Hpricot mais je ne suis pas vraiment mécontent qu'aujourd'hui il soit sur le fil du rasoir.Ruby/Rails page HTML analyse

P.S - Ou tout type de données pour analyser les URL?

Merci!

Répondre

3

Je pense que pour l'analyse HTML nokogiri avec open-uri est le meilleur. Pourquoi est-ce que vous vous souciez d'une bibliothèque, que «de nos jours est sur le bord»?

0

Si vous vous sentez en confiance avec Hpricot, alors utilisez-le. Ne perdez pas votre temps à chercher sans fin: commencez simplement à écrire un programme. C'est ma réponse.

0

Hehe, je cherchais à citer l'auteur hpricot à ce sujet, et je l'ai trouvé ce commentaire:

hpricot était le travail du _why hacker qui a maintenant disparu. Mais avant même qu'il a disparu nokogiri dépassé hpricot dans la performance. Il a même tweeté « appelant demande: « dois-je utiliser hpricot ou nokogiri » si vous n'êtes pas moi: utiliser nokogiri et si vous êtes moi. Bien coupé, arrêtez moi d'être »?

Et voici un lien vers un commentaire que j'ai cité: http://news.ycombinator.com/item?id=1955644

En résumé: rendez-vous avec Nokogiri.