2009-10-07 8 views
0

Je veux lire le contenu d'un site web et le stocker dans un fichier en utilisant C# et asp.net. Je sais que nous pouvons le lire en utilisant httpwebrequest. Mais est-il possible de lire toutes les données de liens disponibles également? Ex: supposons que je veux lire http://www.msn.com je peux donner directement l'URL et peut lire les données de page d'accueil qui n'est aucun problème. Mais ici, cette page msn.com contient tant de liens dans la page d'accueil que je veux lire le contenu de ces pages aussi. C'est possible?comment lire le contenu d'un site web?

Quelqu'un peut-il me donner un starup pour le faire?

Merci à l'avance

+0

Essayez vous-même, c'est assez facile si vous pensez au problème. Si vous avez toujours des difficultés, revenez, affichez le code que vous utilisez et expliquez-lui comment cela échoue et je suis sûr que vous obtiendrez de l'aide. – Lazarus

Répondre

1
  1. définissent la file d'attente des urls

  2. ajouter principale url page à la file d'attente

  3. en file d'attente ne videz jamais

3,1 CURRENTURL = Dequeue()

3.2 lecture de l'URL actuelle

3.3 exctarct toutes les URL de la page courante utilisant regexp.

3.4 Ajouter toutes les urls à la file d'attente

Vous devrez limiter les urls en file d'attente à une sorte de profondeur ou à un domaine, sinon vous allez essayer de télécharger tout l'Internet :)

+0

Salut merci pour votre réponse rapide .. pouvez-vous me donner un exemple simple pour extraire les URL de la page en cours? – Nagu

+0

Je voudrais aller avec "Beautiful Soup" pour gratter la page. – jldupont

+0

3.35 Pour chaque URL trouvée, ignorez-la si c'est celle que vous avez déjà visitée. Sinon, vous pouvez vous retrouver dans une boucle. –

Questions connexes