2016-08-17 1 views
-2
Extraction

Bonne communauté chère après-midi,informations en utilisant XPath

J'ai finalement compilé une liste de XPath de travail requis pour gratter toutes les informations à partir des URL que j'ai besoin.

Je voudrais vous demander votre suggestion, pour un débutant dans le codage quelle est la meilleure façon de gratter autour de 50k liens en utilisant seulement XPaths (environ 100 xpaths pour chaque lien)? Importer.io est mon meilleur outil en ce moment, ou même des outils de référencement pour Excel, mais ils ont tous deux leurs propres limites. Importer io est cher, les outils de référencement pour Excel n'est pas adapté pour extraire plus de 1000 liens. Je suis prêt à apprendre le système suggéré, mais s'il vous plaît suggérer un bon moyen de racler pour mon projet!

#

RÉSOLU! SEO Tools crawler est vraiment super utile et je crois que j'ai trouvé ce dont j'ai besoin. Je suppose que je vais suspendre Python ou Java jusqu'à ce que je rencontre un autre obstacle difficile. Merci à tous!

+0

Possible copie de [Comment utiliser Xpath en Python?] (Http://stackoverflow.com/questions/8692/how-to-use-xpath-in-python) – n1c9

Répondre

1

Cela dépend fortement de ce que vous entendez par "informations de grattage". Que voulez-vous exactement sur les sites Web? Toutes les langues principales (certainement Java et Python que vous avez mentionnées) ont de bonnes solutions pour se connecter à des sites Web, lire du contenu, analyser du HTML en utilisant un DOM et utiliser XPath pour extraire certains fragments. Par exemple, Java a JTidy, ce qui vous permet d'analyser même du HTML «sale» de sites Web dans un DOM et de le manipuler quelque peu. Cependant, les outils nécessaires dépendront des besoins exacts de traitement des données de votre projet.

+0

merci pour votre contribution, j'ai résolu Avec les outils de SEO pour Excel pour l'instant, je vais juste utiliser leur robot qui fait le travail parfaitement pour ce dont j'ai besoin. – Tomas

1

Je vous encourage à utiliser Python (j'utilise 2.7.x) avec sélénium. J'automatise automatiquement le raclage et les tests de sites Web avec ce combo (à la fois dirigé et sans tête), et Selenium ouvre la possibilité d'interagir avec des sites scriptés qui n'ont pas de webcalls explicites pour chaque page.

Voici un bon tutoriel rapide des docs Sélénium: 2. Getting Started

Il y a beaucoup de grandes sources là-bas, et il faudrait toujours les poster tous; mais, vous trouverez la communauté Python très utile et vous verrez probablement que Python est un langage idéal pour ce type d'interaction web.

Bonne chance!

+0

Merci pour votre contribution, python et java tous les deux semblent super .. vraiment difficile de décider sur lequel apprendre. Pour l'instant, j'ai trouvé une solution en utilisant des outils de référencement robot. – Tomas