2016-08-25 2 views
0

J'essaie d'extraire simplement le nom du fichier à partir d'un lien javascript import.io, par exemple googlebolver.htm de href="javascript:finpopup('googlebolver.htm',920,620,0)"XPath - Extrait le nom du fichier spectific de chaîne

J'ai réussi à le « lien » (javascript:finpopup('googlebolver.htm',920,620,0)) avec le suivant XPath

//*[text()='GOOGLE.MAPS']/@href 

mais je voudrais obtenir à l'adresse réelle de son propre chef. Comme je cours l'import.io Extracto sur plusieurs URLs, je veux qu'il trouve quelque chose comme *.htm

Je crois que cela peut-être possible en utilisant la fonction de sous-chaîne, mais je ne sais pas comment le faire. Les questions suivantes de ce site avaient l'air prometteur, mais ne fonctionne que pour les piqûres de longueur fixe et l'autre, je ne comprennent pas complètement et fonctionne pour seulement un «mot spécifique

  1. Extract value from javascript object in site using xpath and import.io
  2. How to use substring() with Import.io?

Merci d'avance pour votre aide

EDIT: Voici le URL

+0

Pouvez-vous partager votre URL? –

+0

@AndrewFogg Fait :-) J'utilise un XPath de recherche au lieu de l'emplacement parce que d'autres pages le placent dans un ordre différent – adamantium

Répondre

0

Vous pouvez utiliser les fonctions XPath substring-after et substring-before, pour sélectionner le texte après, disons, (' et avant ',

dans votre exemple, il serait

substring-before(substring-after(//*[text()='GOOGLE.MAPS']/@href,"('"),"',") 

Note: Je ne sais pas si import.io supporte la fonction XPath standard