2010-09-28 4 views
2

Je dois créer un script php .Comment écrire ce crawler en php?

L'idée est très simple:

Lorsque j'envoie un lien d'un blogpost à ce script php, la page Web est rampé et la première image avec la page de titre sont enregistrés sur mon serveur.

Quoi Fonction PHP Je dois utiliser pour ce robot?

Répondre

6

Utilisez PHP Simple HTML DOM Parser

// Create DOM from URL 
$html = file_get_html('http://www.example.com/'); 

// Find all images 
$images = array(); 
foreach($html->find('img') as $element) { 
     $images[] = $element->src; 
} 

Maintenant tableau $images ont des liens images de page Web donnée. Maintenant, vous pouvez stocker votre image souhaitée dans la base de données.

1

Eh bien, vous devez utiliser un bon nombre de fonctions :)

Mais je vais supposer que vous demandez précisément de trouver l'image, et dire que vous devez utiliser un analyseur DOM comme Simple HTML DOM Parser, puis boucle pour saisir le src du premier élément img.

1

Je voudrais utilisateur file_get_contents() et une expression régulière pour extraire les premières balises d'image src attribut.

CURL ou HTML Parser semble exagéré dans ce cas, mais nous vous invitons à vérifier.

+0

'CURL' est plus rapide que' file_get_contents() ' – Googlebot

2

HTML Parser: HTMLSQL

Caractéristiques: vous pouvez obtenir le fichier html externe, http ou ftp lien et analyser le contenu.