XPath - Extrait le nom du fichier spectific de chaîne

J'essaie d'extraire simplement le nom du fichier à partir d'un lien javascript import.io, par exemple googlebolver.htm de href="javascript:finpopup('googlebolver.htm',920,620,0)"XPath - Extrait le nom du fichier spectific de chaîne

J'ai réussi à le « lien » (javascript:finpopup('googlebolver.htm',920,620,0)) avec le suivant XPath

//*[text()='GOOGLE.MAPS']/@href

mais je voudrais obtenir à l'adresse réelle de son propre chef. Comme je cours l'import.io Extracto sur plusieurs URLs, je veux qu'il trouve quelque chose comme *.htm

Je crois que cela peut-être possible en utilisant la fonction de sous-chaîne, mais je ne sais pas comment le faire. Les questions suivantes de ce site avaient l'air prometteur, mais ne fonctionne que pour les piqûres de longueur fixe et l'autre, je ne comprennent pas complètement et fonctionne pour seulement un «mot spécifique

Merci d'avance pour votre aide

EDIT: Voici le URL

Source

2016-08-25 adamantium

Pouvez-vous partager votre URL? –

@AndrewFogg Fait :-) J'utilise un XPath de recherche au lieu de l'emplacement parce que d'autres pages le placent dans un ordre différent – adamantium

Vous pouvez utiliser les fonctions XPath substring-after et substring-before, pour sélectionner le texte après, disons, (' et avant ',

dans votre exemple, il serait

substring-before(substring-after(//*[text()='GOOGLE.MAPS']/@href,"('"),"',")

Note: Je ne sais pas si import.io supporte la fonction XPath standard

Source

2016-08-29 12:53:42 legrass

XPath - Extrait le nom du fichier spectific de chaîne

Répondre

Questions connexes