2011-03-10 3 views
1

J'ai besoin quelques conseils sur la façon de s'y prendre pour résoudre ce problème:Grattage une page Web et le formatage

J'ai plus de 10K + simples pages web HTML qui ont tous le même format. Quand je dis "même format", je veux dire qu'ils auront tous le même tag h1 au début mais avec un texte variable suivi d'un tableau suivi d'un lien, etc. Donc, si vous voyez, le HTML de base Le squelette des pages 10K + est le même mais juste que le texte continuera à varier. J'ai un moyen de parcourir toutes ces pages de 10K. Je ne sais pas comment je peux copier le texte spécifique dans cette page sur XLS/CSV colonne-sage. Une fois que je peux y parvenir, j'importerai cette feuille Excel dans MySQL et je ferai un traitement ultérieur.

Je connais PHP dans une certaine mesure. Donc, ce que je peux penser à:

$html = file_get_contents("http://www.SomeWebsite.com/"); 

Je peux alors utiliser une RegEx pour manipuler les données dont j'ai besoin. Je ne sais cependant pas comment gérer les redirections.

C'est ce que je peux penser mais y at-il quelque chose de mieux? Peut-être un outil existant ou de meilleurs langages de script?

Répondre

0

Vous pouvez utiliser HTQL pour extraire le contenu html. Il a des interfaces Python et COM. voir: http://htql.net/

Pour extraire la balise h1 < >, utilisez simplement "<h1>" comme la requête.

0

Vous pouvez le faire avec PHP, bien que je recommande XPath au lieu des expressions régulières. Personnellement, j'utilise Python avec lxml et this webscraping library.