RegExp pour décaper les URL d'une chaîne

Je veux prendre un texte Twitter comme ceci:RegExp pour décaper les URL d'une chaîne

s = "Today 09/07 sunday http://t.co/123 - AC/DC COVER Opening and DVD - woman R$10/man R$15. - http://migre.me/59qwc"

et la transformer en cette ..

s = "Today 09/07 sunday LINK - AC/DC COVER Opening and DVD - woman R$10/man R$15. - LINK"

Cet extrait échoue pour une raison quelconque, s'il vous plaît , aide

s.replace(/(http\:.*)\s/g , 'LINK')

Source

2011-07-10 Fabiano PS

Que signifie "échec" signifie? – jtbandes

Je suppose que son ne remplace rien ... – psynnott

Je m'attendrais à ce qu'il remplace tout de "dimanche" à "http://migre.me/59qwc" avec LINK :) –

Essayez d'utiliser

/\bhttps?\:\S*/ig

qui utilise \S* pour correspondre séries de caractères non-espace ne sera donc pas avoir des problèmes correspondant à la fin de l'entrée où il n'y a pas d'espace suivant.

Source

2011-07-10 00:56:48

travaillé parfait, merci! –

. * mangera tous, y compris les espaces, donc ce trouve tout, jusqu'à ce qu'il ne peut pas aller plus loin, il backtr Acks pour trouver le caractère d'espace unique. Vous devrez faire correspondre uniquement les caractères non-espaces pour l'URL et vous aurez terminé.

Source

2011-07-10 00:51:00

N'oubliez pas que l'URL ne doit pas nécessairement se terminer par un espace, en Java j'aurais utilisé des quantificateurs réticents pour y arriver, y compris un fin de l'entrée ($), mais le langage JavaScript semble être moins performant. –

@owistead, '$' fonctionne très bien en JavaScript. En général cependant, vous avez raison. Le langage d'expression rationnelle JavaScript manque certaines choses que 'java.util.regex' a inclus les classes de caractères lookbehind et unicode. –

@mike: Je ne disais pas que $ manquait à JavaScript (cela aurait été bizarre), mais j'aurais inclus $ dans la partie avec les quantificateurs réticents - et ceux * sont * manquants. Bien sûr, cela ne retient pas les gars intelligents comme vous pour donner une réponse sans eux :) –

Comme indiqué, .* correspondra aux espaces et remplacera ainsi tout. Selon le système que vous utilisez, vous pouvez vous en passer avec quelque chose comme \S*, qui ne correspond qu'aux caractères non-espaces, ou bien un [^] * plus explicite à la place.

Source

2011-07-10 00:54:32 Whoopska

Cela devrait dépouiller HTML de votre texte

s.replace(/<.*?>/g, '');

Source

2011-07-10 00:54:56 akshayp

C'est une bonne regex pour supprimer _tags_, mais la question initiale demandait de supprimer les URL commençant par "http: //" ou "https: //". –

essayer:

input.replace(/http:\/{2}[^\s]+/,"link")

Source

2011-07-10 00:57:11

+1 Cela a juste échoué pour la dernière URL. –

RegExp pour décaper les URL d'une chaîne

Répondre

Questions connexes