2017-09-24 2 views
-2

Je dois obtenir tout le texte qui sera visible à l'utilisateur si la page html donnée est affichée dans le navigateur en utilisant une gemme ruby. Maintenant, j'utilise Mechanize et Nokogiri pour supprimer les données du site Web, mais j'ai besoin des mots ou du texte visibles par l'utilisateur. Veuillez indiquer toute gemme ou méthode que je peux utiliser pour accomplir cette tâche.Comment obtenir tout le texte qui peut être visible dans le code html en utilisant une gemme dans ruby ​​

Répondre

0

Vous pouvez le faire avec Nokogiri.

require 'rubygems' 
require 'nokogiri' 

source = "<div>Manu <span> hi</span></div>" 

Nokogiri::HTML(source).text 
# => Manu hi 

Cela posera toujours un problème avec le retour à la ligne et les espacements. Vous devrez simplement gérer ces problèmes vous-même.