2016-07-22 5 views
-1

Récemment, j'essaye d'écrire un web spider, donc je trouve des projets sur web spider écrits en PHP.L'extension php "PCNTL" convient pour une toile d'araignée?

Dans ces projets, je trouve l'extension « PCNTL » est utilisé fréquemment, mais je ne peux pas trouver des tutoriels de détail ou manuels à ce sujet.

Donc je veux savoir si l'extension "PCNTL" est vraiment appropriée pour un web spider? Si non, quelles sont les alternatives.

+0

votes pour finir .. Ce n'est pas une vraie question. – Gogol

+0

La question est bonne, mais le chemin n'est pas très bon. J'ai édité. – Nick

Répondre

0

"PCNTL" est extensions avec le procédé C en forme de fonctions liées, et plus particulièrement fork.

Je ne sais pas s'il y a de bons tutoriels, mais vous pouvez vérifier les exemples de C/C afin de comprendre comment utiliser ces fonctions PHP.

Il y a plusieurs années nous avons fait un robot d'indexation. Au lieu de fork, nous avons utilisé un script shell qui a démarré 100 instances du robot en parallèle.

Une autre alternative est curl-multi, mais encore une fois il n'y a pas assez d'informations et tutoriels pour elle. Nous l'avons essayé et nous ne le trouvons pas très fiable, mais je crois que vous devriez le vérifier.

Une autre alternative est de le faire en Python - il existe plusieurs bibliothèques de programmes différentes qui offrent beaucoup de possibilités.

+0

Merci pour votre réponse et de modifier, je vais essayer ce que vous avez mentionné dans anwer, peut-être que PHP n'est pas le meilleur moyen pour araignée, je vais ensuite continuer à l'étudier. En outre, c'est ma première question sur cette plate-forme, et mon anglais est très pauvre, je vais continuer à pratiquer. En tout cas merci beaucoup. :) – Damon

+0

Vérifiez ma réponse ici: http://serverfault.com/questions/326290/most-efficient-time-cost-way-to-scrape-5-million-web-pages/538958 – Nick