2009-07-24 3 views
1

J'essaye d'écrire un programme qui prend les noms de compagnies d'un dossier de texte et les recherche sur un site Web de moteur de recherche (recherche d'Edgar de SEC). Chaque recherche contient généralement de 1 à 10 liens de résultats de recherche uniques et je veux donc utiliser curl pour cliquer sur le lien avec le nom de l'entreprise concernée. La page de lien a un bref résumé avec le terme "état d'incorporation:" et ensuite le nom de l'état. Im espérant analyser le nom d'état. J'ai du mal à comprendre comment utiliser l'analyse HTML et curl et leurs classes. J'apprécierais toute aide possible telle qu'un bref aperçu des étapes ou juste n'importe quel conseil du tout. Merci.comment utiliser htmlparsing et curl en JAVA pour cette tâche ...?

Répondre

1

En supposant que le code HTML est assez basique, utilisez quelque chose comme le Mozilla Java HTML Parser. Le getting started guide vous donnera plus de détails sur la création du DOM. Java a builtin APIs pour télécharger du contenu à partir du Web, et ceux-ci seront probablement suffisant pour vous (plutôt que d'utiliser "curl"). Une fois que vous avez un DOM, vous pouvez utiliser les API DOM standards pour naviguer vers les liens et les éléments que vous voulez.

Questions connexes