2010-07-30 4 views
1

J'essaie d'extraire le contenu de la table à l'aide Regex.Parsing HTML Table utilisant l'expression rationnelle

J'ai supprimé la plupart des balises de la table, je suis coincé avec <br> , <a href >, <img > & <b> Comment les supprimer ??

pour la balise <b> J'ai essayé Regex

\s*<b[^>]*>\s* 
(?<value>.*?) 
\s* </b>\s* 

il a travaillé pour quelques lignes et quelques-uns de son donnant la à mettre en

<b class="saadirheader">Email:</b> 

Quelqu'un peut-il me aider à enlever ces balises

<br> , <a href >, <img > and <b> 

Mots clés: -

complet
<img src="Newrecord_files/spacer.gif" alt="" border="0" height="1" width="5"> 

<a href="mailto:[email protected]"> 

vous Remerciant,

Naveen HS

+0

Connaissez-vous déjà [ 'strip_tags'] (http://php.net/strip_tags)? – Gumbo

+3

En outre, lien obligatoire: http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – Amadan

+0

Vous pouvez également en savoir plus sur la différence entre des expressions gourmandes et non gourmandes. C'est à dire. dans vs ] *> – relet

Répondre

1

Utilisez le Regex suivant:

(?:<br|<a href|<img|<b)(?:.(?!>))*.> 

Cette expression rationnelle correspond à toutes les balises que vous avez mentionnés ci-dessus, et s'il y a plus de balises que vous avez oublié de mention juste ajouter un "|" signez avec le tag que vous souhaitez ajouter et insérez-le dans les premières parenthèses.