Je suis en train d'analyser les pages HTML et recherche des paragraphes (<p>
) en utilisant get_elements_by_tag_name('p');
nodeValue de DomDocument retour des personnages étranges en PHP
Le problème est que lorsque j'utilise $element->nodeValue
, il est de retour des personnages étranges. Le document est chargé en premier dans $ html en utilisant curl puis en le chargeant dans un document DomDocument.
Je suis sûr que cela a à voir avec les charsets.
Voici un exemple de réponse: "aujourd hui hui".
Merci d'avance.
quel est le codage de la page html dans cet exemple particulier? – Anurag
@Anurag C'est UTF-8. – Elie
duplication possible de [PHP DOMDocument loadHTML ne pas encoder correctement UTF-8] (http://stackoverflow.com/questions/8218230/php-domdocument-loadhtml-not-encoding-utf-8-correctly) – cmbuckley