2010-05-17 11 views
1

Je cherche des méthodes pour extraire diverses données de divers sites Web. Je sais qu'il existe des programmes que vous pouvez acheter, mais étant donné que j'essaie d'apprendre, je veux le faire moi-même. Quelqu'un a-t-il des suggestions sur une structure générale et, dans l'affirmative, dans quelle langue écrivez-vous. Ma première pensée a été java, mais je suis plus qu'heureux et reconnaissant d'entendre l'opinion de quelqu'un d'autre.Extraction de données?

Répondre

1

Quel type de données essayez-vous d'extraire des sites Web? Quels sites Web? etc. Un peu plus de détails sur votre idée/projet serait utile

J'ai récemment eu besoin de regarder et d'essayer quelques analyseurs html pour obtenir des données dont j'avais besoin dans un format plus consolidé.

J'ai essayé JTidy (http://jtidy.sourceforge.net/) et regardé dans Web-Harvest (http://web-harvest.sourceforge.net/). JTidy ne ferait pas tout à fait ce que je voulais et Web-Harvest était exagéré.

Je finalement installé sur l'utilisation de Java + HTMLParser (http://htmlparser.sourceforge.net/)

Il a fallu très peu de temps de développement pour obtenir ce que je avais besoin et HTMLParser vous permet de former des « filtres » qui recherchent des choses spécifiques dans les DOM.

+0

Supposons que j'extraie des prix à partir d'un nombre déterminé de sites Web. Et divers éléments d'information seront saisis par un utilisateur. Et puis interrogé à travers ces sites Web .. Merci pour votre aide – Eric

0

Regardez hadoop (grilles) et solr (chenilles et indexeurs). Ils supportent tous deux un traitement lourd et une indexation efficace (pour une recherche efficace) respectivement.

Questions connexes