2010-10-30 4 views
1

J'ai réussi à scrapper certains sites mais j'ai rencontré un comportement très étrange avec Nokogiri aujourd'hui sur un certain site.Le code HTML retourné par Nokogiri est différent du code source HTML réel

Si j'observe le code source HTML arraché par Nokogiri avec le code source HTML réel du site sur certaines pages, il est tronqué. Certaines pages fonctionnent très bien et toutes les données sont là et d'autres s'éteignent et se tronquent.

www.bento.com/revj/0172.html (ne fonctionne pas - HTML tronquée retourné par Nokogiri) de www.bento.com/revj/0101.html (Travaux grand)

scraped_jpage = Nokogiri::HTML(open(page_to_scrape) 
puts scraped_pagej 

J'ai essayé toutes sortes de code différent, ai changé l'encodage (UTF-8, SHIFT_JIS etc.) mais je ne peux pas voir n'importe quelle raison que Nokogiri tronque le HTML retourné.

Les versions anglaises de ces pages fonctionnent parfaitement.

www.bento.com/rev/0172.html www.bento.com/rev/0101.html

Merci pour toute aide - nous espérons qu'il est quelque chose d'évident, je l'ai manqué et pas un bug. Parce que cette page source avec une mauvaise structure html est

Répondre

1

Essayez d'imprimer des erreurs de résultat:

puts scraped_jpage.errors 
Questions connexes