2010-07-17 4 views
0

Je veux extraire des URL à partir d'une page Web ce ne sont que des URL par eux-mêmes pas des hyperliens, etc., ils sont juste du texte. Quelques exemples seraient http://www.example.com, http://example.com, www.example.com etc. Je suis extrêmement nouveau à regex donc j'ai copié et collé comme 20 expressions en ligne tout a échoué à travailler. Je ne sais pas si je le fais bien ou pas. Toute aide sera grandement appréciée.J'essaie de créer une expression qui va extraire les URL

+0

ami Regex (http://www.regexbuddy.com/) et l'antisèche regex (http://www.addedbytes.com/cheat-sheets/regular-expressions-cheat-sheet/) sont vos amis ... –

+2

quelle langue utilisez-vous pour tenter d'extraire les URL, et comment allez-vous à ce sujet? Un exemple de ce que les expressions régulières que vous utilisez et comment vous les exécutez aiderait. – Chris

+0

je suis très nouveau à cela mais je pense que son .net que le logiciel fonctionne et ce que j'ai fait est le logiciel extrait le contenu entier que vous utilisez regex pour affiner votre sélection ... je veux extraire une url de site Web il y a parfois 10 d'entre eux dans la sélection parfois aucun 100 parfois je veux juste un n'a pas d'importance lequel ... le seul regex iam utilisant est ceux que je trouve en ligne je ne sais même pas si iam les implémenter à droite ... je ahev avec succès regex à Travaillez pour obtenir des email et des numéros de téléphone mais pouvez l'obtenir pour obtenir des URLs juste une url hors de la sélection. – kyle

Répondre

0

Vous n'échapperez probablement pas à votre . s. Vous devez utiliser \. pour chacun d'eux.

Jetez un coup d'œil à strfriend.com. Il a un exemple d'URL, et le représente graphiquement.

L'exemple suggère est:

^((ht|f)tp(s?)://|~/|/)?(\w+:\[email protected])?([a-zA-Z]{1}([\w-]+.)+(\w{2,5}))(:\d{1,5})?((/?\w+/)+|/?)(\w+.\w{3,4})?((\?\w+=\w+)?(&\w+=\w+)*)?

+0

(http | ftp | https): \/\/[\ w \ -_] + (\. [\ w \ -_] +) + ([\ w \ - \., @?^=% &:/~ \ + #] * [\ w \ - \ @?^=% &/~ \ + #]) ? cela a fonctionné – kyle

+0

Désolé, votre code a fonctionné, ou le mien? Aussi, pourquoi cherchez-vous '&'? Cherchez-vous un document XML pour les URL? – Eric

0

J'ai écrit un post sur l'utilisation Regex pour trouver des liens dans une page HTML (l'intention était d'utiliser JavaScript pour ouvrir les liens externes ou des liens vers des documents tels que PDF, etc. dans une fenêtre contextuelle).

Le regex final était: ^ (: [./] +?) (: Actifs | https: // ((www) intégraliste)?!?.?)?

Le plein le message est ici: http://www.integralist.co.uk/javascript/regular-expression-to-open-external-links-in-popup-window/

La solution ne sera pas parfaite mais pourrait vous aider à vous orienter dans la bonne direction.

Mark

Questions connexes