Je veux trouver le texte entre une paire de <une> balises qui pointent vers un site donnéRecherche de texte d'ancrage quand il y a des balises, il
Voici la chaîne re que j'utilise pour trouver le contenu:
r'''(<a([^<>]*)href=("|')(http://)?(www\.)?%s([^'"]*)("|')([^<>]*)>([^<]*))</a>''' % our_url
Le résultat sera quelque chose comme ceci:
r'''(<a([^<>]*)href=("|')(http://)?(www\.)?stackoverflow.com([^'"]*)("|')([^<>]*)>([^<]*))</a>'''
C'est idéal pour la plupart des liens, mais il des erreurs avec un lien avec des étiquettes en son sein. J'ai essayé de changer la dernière partie de l'expression régulière de:
([^<]*))</a>'''
à:
(.*))</a>'''
Mais que juste obtenu tout sur la page après le lien, que je ne veux pas. Y a-t-il des suggestions sur ce que je peux faire pour résoudre ce problème?
Merci beaucoup pour l'aide :) – Teifion