2010-06-14 5 views
0
<div id="main"> 

<style type="text/css"> 
</style> 

<script language="JavaScript">  
</script> 
<p style="margin: 0pt 0pt 0.5em;"><b>Media from&nbsp;<a onclick="(new Image()).src='/rg/find-media-title/media_strip/images/b.gif?link=/title/tt0087538/';" href="/title/tt0087538/">The Karate Kid</a> (1984)</b></p> 
<style type="text/css">  
</style> 

<table style="border-collapse: collapse;"> 
</table> 
</div> 

J'ai besoin d'extraire en quelque sorte la valeur href de la (new Image()). Comment exactement j'accomplirais ceci avec HtmlAgilityPack? Je suis nouveau à ce sujet, et jusqu'à présent, je n'ai pas trouvé un tutoriel utile sur la façon de l'utiliser efficacement pour l'analyse.Comment pourrais-je analyser ce fichier HTML?

Merci pour l'aide!

Répondre

0

HtmlAgilityPack en lui-même ne fournit pas beaucoup d'options d'analyse. Mais vous pouvez l'utiliser avec XPath pour obtenir n'importe quel type d'analyse complexe. Dans votre exemple, vous pouvez faire -

var testString = "..."; // Your html 
var doc = new HtmlDocument(); 
doc.LoadHtml(testString); 
var node = doc.DocumentNode.SelectSingleNode("/div/p/b/a"); 
var hrefValue = node.GetAttributeValue("href", "")); 

Cela donnera

/title/tt0087538/