J'écris un crawler de base qui met simplement en cache des pages avec PHP.Web crawler liens/page logique en PHP
Tout ce qu'il fait est d'utiliser get_file_contents
pour obtenir le contenu d'une page Web et regex pour obtenir tous les liens sur <a href="URL">DESCRIPTION</a>
- au moment où il retourne:
Array {
[url] => URL
[desc] => DESCRIPTION
}
Le problème que je vais avoir est de trouver la logique derrière déterminer si le lien de la page est local ou se demander s'il peut être dans un répertoire local complètement différent.
Il peut s'agir de n'importe quel nombre de combinaisons: c'est-à-dire href="../folder/folder2/blah/page.html"
ou href="google.com"
ou href="page.html"
- les possibilités sont infinies.
Quel serait l'algorithme correct pour aborder cela? Je ne veux pas perdre de données qui pourraient être importantes.
que ce serait une aide précieuse! :) – atomicharri