Le document HTML que j'analyse contient des codes de contrôle ASCII. J'ai remarqué que l'analyseur DOMDocument PHP tronque nœuds de texte quand il trouve des caractères de contrôle ASCII dans le nœud, commeComment faire pour que DOMDocument soit sympa avec les caractères de contrôle ASCII?
Device Control 0x13
End of Medium 0x19
File Separator 0x1C
Group Separator 0x1D
Est c'est un bug ou une fonctionnalité? Existe-t-il un moyen pour que DOMDocument agisse autrement? J'ai eu recours à supprimer ces caractères avant le traitement DOM, mais je me demande si c'est la bonne solution.
Je vois que vous avez accepté ma réponse, vous étiez en mesure de configurer l'analyseur comme 1.1? Ou avez-vous utilisé le work-around de préfixe un prologue 1.1? Ou quelque chose de différent? Il serait utile à d'autres personnes avec le même problème si vous pouviez montrer un exemple de code. – kdgregory