2011-04-20 6 views
1

J'ai une question qui concerne l'analyse de pages HTML. Par exemple, il y a une page, www.example.com/page.html qui contient des informations dans les tableaux dont j'ai besoin, et www.example.com/page2.html contient d'autres informations, mais en format texte. Actuellement, j'utilise une regex (preg_match_all) dans laquelle j'ai dû insérer un motif, fait à la main. Y a-t-il une manière plus rapide/meilleure de faire ceci. Donc la question complète serait: est-il un moyen rapide/bon d'extraire des informations à partir d'une page HTML qui n'a pas besoin de moi pour utiliser et modifier des parties de la source via une regex?Analyse de HTML Page

(Autres informations: J'utilise cURL de PHP i.c.w. pour obtenir le contenu de la page, puis-je utiliser preg_match_all pour extraire les données)

Répondre

4

Oui! Vous pouvez charger le contenu de la page Web dans un DOMDocument PHP et récupérer les données en utilisant des classes et des ID html comme vous le feriez avec Javascript.

Voici la documentation http://www.php.net/manual/en/class.domdocument.php

Vous devriez commencer en utilisant

DOMDocument::loadHTML($html); 

Suivez ensuite la documentation et des exemples est

2

Utilisez l'un des analyseurs proposés dans this post. Vous ne devriez jamais utiliser des expressions régulières pour analyser html.