2015-07-21 2 views
1

https://bigfuture.collegeboard.org/college-university-search/dickinson-collegeImpossible de récupérer le contenu de CollegeBoard en utilisant PHP

je tentais de récupérer le contenu de cette page en utilisant la fonction de PHP preg_match:

$filename = 'https://bigfuture.collegeboard.org/college-university-search/dickinson-college'; 
$content = file_get_contents($filename); 

$subject = $content; 
$pattern = '#(?<=<span class="locality" itemprop="addressLocality">)(\w*)(?=<\/span>)#'; 
preg_match($pattern,$subject,$city); 

print_r($city); 

Les informations que je veux chercher est dans le div avec la classe "clearfix margin60 marginBottomOnly". Lorsque vous utilisez Firebug ou "Inspecter élément" dans Chrome, le contenu de cette div est visible.

Cependant, quand j'ai vu la source de la page, la div est vide.

Quelqu'un pourrait-il me dire la raison et comment obtenir le contenu que je veux de la page (par exemple, l'emplacement de l'école)?

+0

Pratiquez-vous regexp et vous devez le faire de cette façon? C'est beaucoup plus facile d'obtenir du contenu html avec DOMDocument – Daimos

+0

Pouvez-vous me recommander quelques ressources pour en savoir plus sur la façon dont je pourrais obtenir du contenu HTML avec DOMDocument? –

+0

beaucoup d'informations que vous pouvez trouver même ici, sur la pile, mais si vous voulez travailler rapidement et facilement, personnellement j'utilise simplehtmldom ,, vérifiez-le: http://simplehtmldom.sourceforge.net/ – Daimos

Répondre

2

Vous n `voyez parce que le contenu est généré par la fonction JavaScript, si u vérifieront onglet « script » et recherchez le nom div [gwtDiv], vous ce script est le générer,