2009-04-19 5 views
0

Je sais que cURL téléchargera un fichier complet. Ce que je veux vraiment, c'est prendre tous les liens sur une page et évaluer par rapport à mes critères spécifiques, l'emplacement du lien, etc et décider si je devrais saisir cette page et l'analyser pour l'information. Plus précisément, je veux trouver des liens qui se rapportent à des événements de divertissement et analyser les données et les stocker dans ma base de données MySQL pour remplir un site Web pour les événements dans ma région.Web Crawling et évaluation de lien

Quelqu'un aurait-il des idées sur la façon d'accomplir?

-Jason

Répondre

2

Je vous suggère de baser vos efforts sur une solution web crawler existante/indexeur, plutôt que de mettre en œuvre vous-même dans le code ou avec des outils tels que CURL.

Voir par exemple Lucene.

+0

comment peut-on à déployer cette GoDaddy sur un serveur partagé? – Toddly

+0

Et d'autre part, sur un mac mini avec une adresse IP statique? – Toddly

0

Si tout ce que vous voulez est une énumération de liens sur une page, vous pouvez utiliser le .NET WebBrowser et le DOM pour le faire. Creuser mon code pour ça ... Je reviendrai vers vous.

0

Vous n'avez pas spécifié de langage de programmation. Apache Droids peut être la chose pour vous, si vous êtes prêt à le personnaliser en utilisant Java. Il est prévu comme un robot d'exploration minimal que vous pouvez personnaliser pour vos besoins spécifiques.

1

Ces solutions dans les autres réponses semble intéressante, mais je viens de faire quelque chose de similaire et simple avec C#/Mono et HTML Agility Pack.

0

Comme mentionné ci-dessus, vous n'avez pas mentionné de langue. Si vous utilisez Ruby, la gemme cobweb pourrait être utilisée pour cela. Vous lui indiqueriez manuellement de ne pas trouver de liens (il explorerait automatiquement tous les liens par défaut) et le faire vous-même sur chaque page comme vous l'aviez dit pour les évaluer, ils pourraient ensuite être mis manuellement dans la file d'attente si vous le souhaitez. être rampé.

Il semble que Ruby on Rails soit supporté par un hébergement partagé par godaddy si c'est ce que vous voulez.

(juste vu c'était il y a 3 ans, pourrait aider quelqu'un d'autre si!)

Questions connexes