nodeValue de DomDocument retour des personnages étranges en PHP

Je suis en train d'analyser les pages HTML et recherche des paragraphes (<p>) en utilisant get_elements_by_tag_name('p');nodeValue de DomDocument retour des personnages étranges en PHP

Le problème est que lorsque j'utilise $element->nodeValue, il est de retour des personnages étranges. Le document est chargé en premier dans $ html en utilisant curl puis en le chargeant dans un document DomDocument.

Je suis sûr que cela a à voir avec les charsets.

Voici un exemple de réponse: "aujourd hui hui".

Merci d'avance.

Source

2010-01-08 Elie

quel est le codage de la page html dans cet exemple particulier? – Anurag

@Anurag C'est UTF-8. – Elie

duplication possible de [PHP DOMDocument loadHTML ne pas encoder correctement UTF-8] (http://stackoverflow.com/questions/8218230/php-domdocument-loadhtml-not-encoding-utf-8-correctly) – cmbuckley

Ceci est un problème de codage. essayez de définir explicitement l'encodage sur UTF-8.

cela devrait aider: http://devzone.zend.com/article/8855

Source

2010-01-08 02:09:53 prodigitalson

Déjà essayé ça et ça n'a pas fonctionné ... La chose amusante est que si je fais $ doc-> saveHTML(), l'encodage du HTML de retour est totalement correct. – Elie

Quel est le '' spécifié dans le code HTML? – prodigitalson

Je fixe ce en forçant la conversion en UTF-8, même si le texte original était UTF-8:

$text = iconv("UTF-8", "UTF-8", $text); 
$dom = new SmartDOMDocument(); 
$dom->loadHTML($webpage, 'UTF-8'); 
. 
. 
echo $node->nodeValue;

PHP est :) wierd

Source

2011-05-10 06:28:16

J'ai eu les mêmes problèmes et maintenant remarqué que loadHTML() ne prend plus 2 paramètres, donc j'ai dû trouver une solution différente. En utilisant la fonction suivante dans ma bibliothèque DOM, j'ai été capable de supprimer les caractères funky de mon contenu HTML.

private static function load_html($html) 
{ 
    $doc = new DOMDocument; 
    $doc->loadHTML('<?xml encoding="UTF-8">' . $html); 

    foreach ($doc->childNodes as $node) 
     if ($node->nodeType == XML_PI_NODE) 
      $doc->removeChild($node); 

    $doc->encoding = 'UTF-8'; 

    return $doc; 
}

Source

2012-11-14 00:16:49 stagl

nodeValue de DomDocument retour des personnages étranges en PHP

Répondre

Questions connexes