Expression régulière pour correspondre à la fois les URL relatives et absolues

Tout le monde veut essayer à venir avec un regex qui correspond à la fois:Expression régulière pour correspondre à la fois les URL relatives et absolues

/foo/bar/baz.gif
/foo/bar/
http://www.foo.com/foo/bar

Je pense qu'il pourrait être impossible de le faire avec une expression régulière, mais on ne sait jamais.

EDIT: Pour clarifier, ce que j'essaie de faire est de sélectionner tous les URI d'un document (pas un document HTML).

Source

2009-06-15 FlySwat

(http:/)?(/[\w.]+)+/?

correspond à ceux-ci, mais peut-être que vous aviez des conditions plus strictes à l'esprit?

Source

2009-06-15 22:33:26

(http:\/)?(\/[\w\.\-]+)+\/?

Semblable à Alex's.

Source

2009-06-15 22:37:57

hmmm, en dehors de votre Escaping plus approfondie, il me semble que vous correspondant « http :/'tout seul - tu es sûr de vouloir ça * au lieu de mon + là? –

Celui-ci semble loin beaucoup trop gourmand. J'ai terminé avec environ 500k d'espaces. – FlySwat

@Alex Bon appel. Édité. –

C'est une question délicate car il y a tellement de caractères valides dans les URL (avant qu'ils ne soient encodés en url).

Voici mon coup:

(http:/|https:/)?(/[^\s"'<>]+)+/?

également similaire à Alex. Le seul problème que j'ai trouvé avec Alex, c'est que ça ne correspondrait pas à des choses comme des signes dièse, des tirets, des trucs comme ça. Alors que le mien va correspondre à tout cela. En fait, la seule chose qui l'empêche d'être trop gourmand est l'instruction de ne pas faire correspondre les espaces, les guillemets, les apostrophes ou les chevrons.

Source

2009-06-15 22:42:53

Trop gourmand: http://www.w3.org/tr/xhtml1/dtd/xhtml1-transitional.dtd"> FlySwat

Oh ... je l'ai juste mis à jour, peut-être que c'est mieux –

Encore trop gourmand, tire le '/ a' de la fin '' s'il s'agissait d'un lien HTML – philfreo

(
    ((http|https|ftp)://([\w-\d]+\.)+[\w-\d]+){0,1} // Capture domain names or IP addresses 
    (/[\w~,;\-\./?%&+#=]*)    // Capture paths, including relative 
)

Justification de cette réponse:

L'ensemble est regroupé de sorte que vous pouvez choisir l'URL complète
La partie de protocole est facultative, mais si elle est fournie, un nom d'hôte ou l'adresse IP doit également être fourni (les deux ont moins de caractères autorisés que le reste de l'URI).
Le "/" au début est également facultatif. Les chemins peuvent être sous la forme "images/1.gif", qui sont relatifs au chemin actuel plutôt que par rapport au nom d'hôte.

Avertissements

mailto et fichiers non pris en charge. URIs Les URL suivies par une période (comme à la fin d'une phrase sans guillemets) incluront la période de fin.
En raison de # 3 ci-dessus, il va capturer toutes sortes de choses. Si vous pouvez vérifier que tous les chemins sont et non, vous pouvez ajouter un "/" à l'extérieur de la parenthèse et ainsi l'exiger.
Si tous les URI sont dans les attributs HTML (A, LINK, IMG, etc.), vous pouvez cibler les URI de manière beaucoup plus précise en les capturant uniquement entre guillemets, ou du moins uniquement dans les balises HTML.

Modifier: whoops, problème de fermeture fixe paren.

Source

2009-06-15 22:53:37 richardtallent

Vérifiez votre expression, même après avoir supprimé les commentaires qu'il ne compilera pas – FlySwat

Il a une parenthèse manquante à la fin. (http | https | ftp): // ([\ w- \ d] + \.) + [\ w- \ d] +) {0,1} (/ [\ w ~,; \ - \ ./ ?% & + # =] *)) D'ailleurs, cela a été vérifié à http://regexhero.net/ - un grand gain de temps –

Notez que cela échoue si les URL sont en HTML, comme le ' \ a' de la fin ' 'sont inclus – philfreo

Pas facile et peut-être vous finissez par avoir « trop URI » attrapée, mais qu'en est:

((http://|https://)([^/])+)*(/([^\s])*(/))(((\w)*\.[\w]{3,10})|(\w+))?

Fondamentalement, vous avez deux groupes là-bas. Sur la définition du protocole. On cherche le répertoire et on cherche un fichier à la fin. Mais! cette approche est très limitée. Si vous avez besoin d'une vraie validation URI et! séparation (port, nom d'utilisateur, mot de passe, filtrer les caractères indésirables!) vous finirez probablement avec une expression plus complexe. Bonne chance!

Mise à jour:

Vous ne l'avez pas demandé cela, mais pour les gars qui viennent des moteurs de recherche qui veulent en savoir plus sur regex Je voudrais brancher ce programme gratuit j'ai utilisé pour cette tentative « The Regex Coach » (Non, non affilié).

Source

2009-06-15 22:53:51 merkuro

Cela semble être le plus proche de correspondre réellement ce que je veux, mais ce qui est" capturé "est généralement ju st "/" et pas l'URI entière. – FlySwat

Parce que même www.google.com, cool.com ou www.test.us/test pourrait être considéré comme un URI valide d'un certain point de vue, je suggère l'expression suivante: ([^ \ s] + [/.] + [^\ s] +) Il échouera sur les phrases de construction régulières tant qu'il y aura un espace après. – merkuro

Nope ... renvoie: '/ foo/bar"> baz philfreo

J'ai utilisé des groupes de capture de noms. Nous obtenons de meilleurs résultats lorsque le système est présent. Comme www.foo.com/bar ne correspondrait qu'à/bar.

(?: 
    (?:(?<scheme>https?|file)://) 
    (?<host>[^/]+) 
    (?<path>/(?:[^\s])+)? 
) 
| 
(?<path>/(?:[^\s])+)

C'est ce que vous pouvez faire pour javascript

var result = text.match(/(?:(?:(https?|file):\/\/)([^\/]+)(\/(?:[^\s])+)?)|(\/(?:[^\s])+)/g);

Les données de test

sadfasdf /foo/bar/ba090z.gif asdfasdf /foo/bar/ sadfasdf asdflkj; http://www.foo.com/foo/bar some stuff http://user:[email protected]:80/r?stuff%20stuff 

user:[email protected]:80/r?stuff%20stuff

Source

2009-06-16 03:30:50 TJR

Expression régulière pour correspondre à la fois les URL relatives et absolues

Répondre

Questions connexes