aide HTMLAgility pack pour extraire les liens

ce simple morceau Tenir compte de code:aide HTMLAgility pack pour extraire les liens

using System; 
using System.Collections.Generic; 
using System.Linq; 
using System.Text; 
using HtmlAgilityPack; 

namespace WebScraper 
{ 
    class Program 
    { 
     static void Main(string[] args) 
     { 
      HtmlDocument doc = new HtmlDocument(); 
      doc.LoadHtml("http://www.google.com"); 

      foreach (HtmlNode link in doc.DocumentNode.SelectNodes("//a[@href]")) 
      { 
      } 
     } 
    } 
}

Cela ne marche pas effectivement faire quoi que ce soit, et est copié/inspiré de diverses autres questions comme StackOverflow this. Lors de la compilation de ceci, il y a une erreur d'exécution qui indique "La référence d'objet n'est pas définie sur une instance d'un objet". mettant en évidence la ligne foreach.

Je ne comprends pas, pourquoi l'environnement est devenu irritable pour ce morceau de code humble, innocent et inutile.

J'aimerais aussi savoir, HTMLAgilityPack accepte-t-il les classes HTML comme nœuds?

Source

2010-06-05 Soham

Si vous voulez charger html à partir du Web, vous devez utiliser l'objet HtmlWeb:

HtmlWeb web = new HtmlWeb(); 
HtmlDocument doc =web.Load(url);

Source

2010-06-05 11:40:35 Oded

thnks le problème a été résolu! – Soham

LoadHtml prend une chaîne de HTML réel en tant qu'argument. Vous pouvez passer Load a Stream à partir de WebResponse.GetResponseStream() à la place.

WebRequest req = WebRequest.Create("http://www.google.com"); 
Stream s = req.GetResponse().GetResponseStream(); 
doc.Load(s);

Source

2010-06-05 11:28:10

Merci. Je n'ai pas prévu cela. – Soham

aide HTMLAgility pack pour extraire les liens

Répondre

Questions connexes