Recherche de texte d'ancrage quand il y a des balises, il

Je veux trouver le texte entre une paire de <une> balises qui pointent vers un site donnéRecherche de texte d'ancrage quand il y a des balises, il

Voici la chaîne re que j'utilise pour trouver le contenu:

r'''(<a([^<>]*)href=("|')(http://)?(www\.)?%s([^'"]*)("|')([^<>]*)>([^<]*))</a>''' % our_url

Le résultat sera quelque chose comme ceci:

r'''(<a([^<>]*)href=("|')(http://)?(www\.)?stackoverflow.com([^'"]*)("|')([^<>]*)>([^<]*))</a>'''

C'est idéal pour la plupart des liens, mais il des erreurs avec un lien avec des étiquettes en son sein. J'ai essayé de changer la dernière partie de l'expression régulière de:

([^<]*))</a>'''

à:

(.*))</a>'''

Mais que juste obtenu tout sur la page après le lien, que je ne veux pas. Y a-t-il des suggestions sur ce que je peux faire pour résoudre ce problème?

Source

2009-03-02 Teifion

Au lieu de:

[^<>]*

Essayez:

((?!</a).)*

En d'autres termes, correspond à tout caractère qui n'est pas le début de une séquence </a.

Source

2009-03-02 17:37:13 MarkusQ

Merci beaucoup pour l'aide :) – Teifion

Je n'utiliserais pas une regex - utilisez un analyseur HTML comme Beautiful Soup.

Source

2009-03-02 17:32:17

Semble un peu lourd pour un problème aussi simple – Teifion

Jamais. Le HTML est très irrégulier - les navigateurs doivent tolérer un grand nombre d'erreurs. Belle soupe peut mieux traiter le HTML irrégulier que les regex peuvent. –

Faites une recherche non gourmande à savoir

(.*?)

Source

2009-03-02 17:32:35

Il correspond seulement jusqu'à l'étiquette dans le texte d'ancrage – Teifion

>>> import re 
>>> pattern = re.compile(r'<a.+href=[\'|\"](.+)[\'|\"].*?>(.+)</a>', re.IGNORECASE) 
>>> link = '<a href="http://stackoverflow.com/questions/603199/finding-anchor-text-when-there-are-tags-there">Finding anchor text when there are tags there</a>' 
>>> re.match(pattern, link).group(1) 
'http://stackoverflow.com/questions/603199/finding-anchor-text-when-there-are-tags-there' 
>>> re.match(pattern, link).group(2) 
'Finding anchor text when there are tags there'

Source

2009-03-03 00:13:46 riza

Merci pour cela, cela m'a beaucoup aidé. –

Recherche de texte d'ancrage quand il y a des balises, il

Répondre

Questions connexes