2016-09-08 1 views
0

J'utilise des grattoirs de données: Import.io & Portia. Ils vous permettent tous les deux de définir une expression régulière à respecter par le robot d'indexation. par exemple l'url: https://weedmaps.com/dispensaries/pdi-medicalimport.io et portia regex url modèles

Comment devrais-je prendre en compte la fin "pdi-medical"?

Je l'ai regardé partout et comprendre comment utiliser regex dans un environnement JS, mais je suis un peu confus quant à ce que je exactement mis dans l'entrée sur Portia/Import.io

Quelque chose comme ça? https://weedmaps.com/dispensaries//^[a-zA-Z0-9 -_] + $/

Répondre

0

Pour Portia, si vous voulez que votre robot à suivre toutes les URL commençant par https://weedmaps.com/dispensaries/, vous pouvez simplement ajouter une règle rampants avec l'expression rationnelle suivante:

^https?://weedmaps.com/dispensaries/

+0

Merci! J'ai couru ça et je ne reçois que des dispensaires en Californie, pas d'autres états. aucune idée pourquoi cela pourrait être? –

+0

Les URL des autres états sont-elles disponibles dans vos pages de démarrage? Et ont-ils le même modèle d'URL? –