2010-04-06 5 views
1

Je souhaite créer un programme qui prend comme entrée utilisateur une adresse de site Web. Le programme va ensuite sur ce site Web, le télécharge, puis analyse les informations à l'intérieur. Il génère un nouveau fichier html en utilisant les informations du site Web. Plus précisément, ce que ce programme va faire est de prendre certains liens du site Web, et mettre les liens dans le fichier html de sortie, et il va jeter tout le reste.Analyse d'un site Web

En ce moment, je veux juste faire pour les sites qui ne nécessitent pas de connexion, mais plus tard, je veux le faire fonctionner pour les sites où vous devez vous connecter, il devra donc être en mesure de gérer les cookies .

Je voudrais également que le programme puisse explorer certains liens et télécharger des informations à partir de ces autres sites. Quels sont les meilleurs langages de programmation ou outils pour cela?

+2

La langue la plus facile à utiliser est souvent celle que vous connaissez le mieux! Quels langages/outils connaissez-vous déjà? –

+0

Juste comme une note de côté, vous pourriez envisager d'autoriser la saisie directe de sources HTML. Cela permet aux utilisateurs de saisir plus facilement des sites Web nécessitant des informations d'identification. En outre, à moins que l'utilisateur ne vous donne ses informations d'identification, vous ne pourrez pas vous connecter en son nom. – Cameron

+0

Actuellement, j'utilise C++, mais j'ai de l'expérience avec Python, Perl et d'autres choses. Je vais me connecter avec mon propre nom d'utilisateur et mot de passe. – neuromancer

Répondre

3

Beautiful Soup (Python) est fortement recommandé, même si je n'en ai aucune expérience personnelle.

1

Python.

Il est assez facile d'écrire un moteur de balayage simple en utilisant les librairies standards de python, mais vous pourrez également trouver quelques librairies de python existantes disponibles sur le web.