Donc, je cherche à gratter les liens rapidshare.com à partir de sites Web. Je les expressions régulières suivantes pour trouver des liens:Regex qui trouve des liens hypertexte tout en excluant le texte brut
<a href=\"(http://rapidshare.com/files/(\\d+)/(.+)\\.(\\w{3,4}))\"
http://rapidshare.com/files/(\\d+)/(.+)\\.(\\w{3,4})
Comment puis-je écrire un regex qui exclura le texte qui est intégré dans une balise <a href="...">
. et seulement capturer le texte dans >here</a>
Je dois également garder à l'esprit que tous les liens ne sont pas intégrés dans les balises href. Certains sont simplement affichés en texte brut.
Fondamentalement, y at-il un moyen d'exclure des motifs dans regex?
Merci.
Quel texte essayez-vous de capturer? Que signifie "texte ici>"? Texte au here ou texte ailleurs? – Cerin
Une partie du texte ne s'affichait pas car l'OP n'utilisait pas le formatage du code. Cela devrait avoir plus de sens maintenant. –