J'essaie d'obtenir le contenu de la page Web pour que je puisse extraire le texte affiché. J'ai essayé le code ci-dessous mais il m'obtient le code source html et non le HTML résultant.Récupère la sortie de la page Web en C#
string urlPath = "http://www.cbsnews.com/news/jamar-clark-protests-follow-decision-not-to-file-charges-in-minneapolis-police-shooting/";
WebClient client = new WebClient();
string str = client.DownloadString(urlPath);
Comparer le texte dans la variable str avec le code html dans les outils de développement dans le navigateur Chrome et vous obtiendrez des résultats différents.
Toutes les recommandations seront appréciées.
Et la question est .......? –
Chrome analyse HTML non seulement le récupère. Cela signifie manipuler des caractères spéciaux, des sauts de ligne, etc. Qu'est-ce que vous essayez exactement de faire? Ce que vous voyez est probablement plus proche de "View Page Source" ** edit ** Aussi javascript qui s'exécute sur la page, les iframes qui sont chargés et plus peuvent changer le rendu html par rapport à la source, donc ça ne va probablement jamais être exact de toute façon – Matt
Et la question est "comment puis-je obtenir le texte qui est affiché dans le navigateur via C#". – Garagewerks