2011-02-09 1 views

Répondre

2

Vous devez essentiellement explorer le site. Votre processus serait quelque chose comme:

  • Démarrer au domaine racine/page d'accueil
  • Rechercher tous les liens qui pointent dans le même domaine
  • Pour chacun de ces liens, répétez les étapes

Votre boucle se termine lorsqu'il n'y a plus de liens vers l'analyse qui pointent dans le même domaine. N'oubliez pas de rester sur le site, sinon vous commencerez à explorer des sites externes.

Vous pouvez également essayer d'analyser le sitemap s'il en fournit un.

Un outil qui pourrait s'avérer utile si vous utilisez Java est JSpider ou Sphider en PHP.

+0

Comment vérifier si je suis toujours sur le même domaine? RegEx? –

+0

Vous pouvez voir les hôtes de l'URL liée. Un analyseur d'URL peut facilement vous obtenir cette information en PHP. –

0

Vous devrez analyser de manière récursive le balisage de chaque page, en commençant par votre page de niveau supérieur, en recherchant tout type de liens vers d'autres pages et en les parcourant de manière récursive. Vous aurez également besoin de garder une trace de ce qui a été scanné pour ne pas être pris dans une boucle infinie.

3

Vous pouvez interroger l'index de Google à l'aide de l'opérateur site. par exemple:

site:domain-to-query.com 

Cela retournera une liste des pages du site qui sont actuellement indexées par Google. D'autres moteurs de recherche offrent des fonctionnalités similaires mais je ne connais pas la syntaxe.

Bien sûr, toutes les pages ne peuvent pas être indexées et l'index peut contenir des pages qui n'existent plus.

+0

J'aime l'idée de laisser Google faire tout le dur travail ... –

Questions connexes