2010-08-30 2 views
0

Si j'ai un lien, disons http://yahoo.com/ alors est-ce que je peux avoir les liens à l'intérieur de yahoo? Par exemple, j'ai un site Web http://umair.com/ et je sais qu'il n'y a que 5 pages Accueil, À propos, Portfolio, FAQ, Contact, puis-je obtenir des liens comme suit par programmation?Existe-t-il un moyen de trouver le lien de toutes les pages par URL?

http://umair.com/index.html 
http://umair.com/about.html 
http://umair.com/portfolio.html 
http://umair.com/faq.html 
http://umair.com/contact.html 

Répondre

1

Définissez ce que vous entendez par "liens dans yahoo".

Voulez-vous dire toutes les pages pour lesquelles il y a un lien sur la page retournée par "http://www.yahoo.com"? Si tel est le cas, vous pouvez lire le code HTML renvoyé par une requête HTTP GET et analyser la recherche des éléments <a>. Vous pouvez utiliser le "HTML Agility Pack" pour obtenir de l'aide.

Si vous voulez dire, "Toutes les pages sur le serveur de ce domaine", probablement pas. La plupart des sites Web définissent une page par défaut que vous obtenez lorsque vous n'en demandez pas explicitement une. (Par exemple, demander http://umair.com renvoie presque certainement http://umair.com/index.html). Very peu de sites Web ne définissent pas un défaut, et ils vont retourner une liste de fichiers.

Si vous voulez dire, "Toutes les pages sur le serveur de ce domaine, même si elles définissent une page par défaut", non cela ne peut pas être fait. Ce serait une violation extrême de la sécurité.

+0

Le dernier paragraphe que vous avez mentionné était ma question. Vous dites que ce n'est pas possible, mais si vous connaissez un outil nommé WebCopier, c'est ce qu'il fait. non? – Neutralizer

0

Cela pourrait se faire par un Crawler Web, lire quelques informations sur ce:

http://en.wikipedia.org/wiki/Web_crawler 

Comprend robots d'exploration Open Source, voir si l'un d'eux est ce que vous recherchez.

+0

Merci, je le sais déjà. Je devais demander si je peux surmonter le paramètre de page par défaut dans les serveurs? – Neutralizer

Questions connexes