Vous pouvez obtenir le code HTML en utilisant la bibliothèque NET::HTTP au sein de Ruby
url = URI.parse('http://www.example.com/index.html')
req = Net::HTTP::Get.new(url.path)
res = Net::HTTP.start(url.host, url.port) {|http|
http.request(req)
}
body_html = res.body
Vous pouvez ensuite enregistrer body_html
dans votre objet de base de données. Le hic est que cela renvoie le code HTML que le client obtiendrait. Dans le monde "réel", le navigateur analyse ensuite ce code HTML, puis obtient des requêtes HTTP distinctes pour les feuilles de style, les scripts et les images. Vous devez faire la même chose et ensuite stocker ces objets dans des objets de base de données distincts.
Cette question vous donne des outils qui pourraient aider à la partie de l'analyse syntaxique: Method to parse HTML document in Ruby?
mot d'avertissement: Je pense que ce que vous essayez de faire va être beaucoup plus difficile que vous pensez. Réfléchissez bien à ce que vous essayez vraiment d'accomplir et si c'est la meilleure méthode pour y arriver.
Downvotes? Ceci est une question inhabituelle mais tout à fait valide. Ne pas downvote juste parce que vous ne pouvez pas le comprendre. – providence