2010-12-11 4 views
0

Je veux créer un programme qui prendra une liste de mots, rechercher sur un dictionnaire web (comme dictionnaire d'apprentissage webster, cambridge apprenant, ..) et va créer un fichier texte sous cette forme:Tout d'abord, projet de programmation réel: Créer une base de données à partir d'un dictionnaire Web

word1 pronunciation definition example sentence ... ... 
word2 pronunciation definition example sentence ... ... 
.... 

et j'ai quelques questions:

est-il possible de le faire?
si ce sont les outils que je devrais utiliser?
Si c'est possible avec python, quelle lib. devrais-je utiliser?
(Je préfère python parce que c'est le langage que j'apprends)

J'ai juste besoin d'une idée générale de la façon de prendre.

Je suis toujours un grand noob avec la programmation, mais, je pense que si je travaille sur un projet personnel, je vais bien progresser.

P.S .: Mon anglais est loin d'être parfait, désolé.

Répondre

3

Il ne serait pas si difficile, la chose principale serait de trouver comment interroger le site. Ceux-ci seraient les étapes de base:

  • carte chaîne de requête à l'URL: (. Examinez la source de The html pour comprendre paramters des formes)
    • Vous devez comprendre comment le fonctionnement du site Certains sites avoir des API publiques qui le rendent plus facile.
  • get page Web: urllib2
  • page Parse pour votre réponse: BeautifulSoup. Séparez vos informations du reste de la page Web.
  • écrire des informations dans un fichier
+0

Comment puis-je savoir si un site Web a une API publique? – Alpagut

-1

Cela est possible, mais afin de maintenir l'évolutivité vous aurez besoin de l'algorithme rigth: http://en.wikipedia.org/wiki/Aho%E2%80%93Corasick_string_matching_algorithm

En python c'est: http://pypi.python.org/pypi/ahocorasick/0.9

vous suffit de saisir l'événement où l'arbre de recherche atteint un état dans lequel un mot de recherche est découvert et agit sur lui. La page wiki mentionnée ci-dessus vous indique quelques ressources utiles.

Greetz, J.

Questions connexes