Comment obtenir un code source de page html sans tags htl? Par exemple:html au texte avec la classe domdocument
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<meta http-equiv="content-language" content="hu"/>
<title>this is the page title</title>
<meta name="description" content="this is the description" />
<meta name="keywords" content="k1, k2, k3, k4" />
start the body content
<!-- <div>this is comment</div> -->
<a href="open.php" title="this is title attribute">open</a>
End now one noframes tag.
<noframes><span>text</span></noframes>
<select name="select" id="select"><option>ttttt</option></select>
<div class="robots-nocontent"><span>something</span></div>
<img src="url.png" alt="this is alt attribute" />
J'ai besoin de ce résultat:
this is the page title this is the description k1, k2, k3, k4 start the body content this is title attribute open End now one noframes tag. text ttttt something this is alt attribute
Je dois aussi le titre et les attributs alt. Idée?
il veut conserver le contenu de l'attribut. S'il voulait supprimer des éléments, il pourrait simplement utiliser strip_tags – Gordon
Right, mais il s'agit juste de faire correspondre les attributs qu'il veut. Ce n'est pas facile, mais il est certainement possible de le faire de façon automatisée via PHP. – dclowd9901
Handcrafting ceci n'est pas automatisé. Utiliser aussi regex pour analyser XML est le chemin de la folie. Regex n'a aucune idée sur les nœuds ou les attributs. L'analyse XML n'est pas ce que Regex est pour. – Gordon