Eh bien, certaines pages Web contiennent un attribut "lang" ou "xml: lang" dans l'élément html. Par exemple:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
<head>
<title></title>
<meta http-equiv="content-type" content="text/html;charset=utf-8" />
</head>
<body>
</body>
</html>
Dans cet exemple, les attributs "lang" et "xml: lang" sont définis comme "en" (à savoir l'anglais). En outre, certains serveurs peuvent définir un en-tête "Content-Language" et vous pouvez vérifier cette valeur. (Bien que, pour être honnête je n'ai pas réellement vu un serveur qui fixe cette valeur).
Cependant, la valeur de ces attributs ou en-têtes peut être quelque chose et certains serveurs et pages Web n'indiquent même pas une langue du tout. Mais vous voudrez probablement rechercher des codes de langage communs tels que définis par ISO-639 et ISO-3166. Quant à l'implémentation de ceci en C#, je l'admets: je n'en ai pas vraiment la moindre idée. Mais je pense que la classe WebResponse a une propriété appelée Headers que vous voudrez peut-être regarder. Oh, et pour des langues comme l'hindi, je suis sûr qu'ils contiennent des caractères uniques à cette langue. Dans ce cas, vous pouvez rechercher votre chaîne htmlText pour l'un de ces caractères particuliers.
Il existe également une méthode simple vérifiant votre chaîne htmlText pour les mots communs à une langue particulière. Par exemple, si vous vouliez savoir si la page a été français, vous pouvez rechercher le mot « bonjour », etc.
Merci, je veux identifier si son anglais/chinois/japonais aiment ça. – AjayR