2012-03-12 3 views
0

Je veux analyser un fichier HTML pour ces raisons:Analyse HTML en Java?

  1. Pour l'obtenir le contenu entre les balises. Par exemple, entre une paire de balises para
  2. Pour rechercher l'occurrence d'étiquettes de rupture
  3. Pour obtenir les attributs d'une balise. Par exemple, pour obtenir la valeur de COLOR dans FONT COLOR = "red">

Je dois faire cela en Java. Je connais les bases de l'analyseur Jehrico. Comment puis-je le faire?

+1

Quelle est votre véritable question? – Robert

+0

Il y avait une erreur de formatage je suppose. Avez-vous compris la question maintenant? –

Répondre

2

Si le code HTML que vous souhaitez analyser est XHTML, il doit également être valide au format XML. Donc, tout analyseur XML devrait être capable de l'analyser.

Si vous ne pouvez pas compter sur cela, vous pouvez lancer une recherche sur Google pour les analyseurs HTML pour Java.

+0

Est-ce que HTML peut être converti en XHTML à la volée en Java? –

+0

Je pense que JTidy devrait être capable de faire ce travail. –

10

Il n'y a pas. de Java HTML parseurs disponibles comme:

Vous pouvez également passer par une discussion très complète sur les avantages et les inconvénients de l'utilisation de chaque parmi ceux-ci here.

+2

J'ai utilisé jsoup auparavant et je l'ai trouvé assez bon pour ce que j'avais besoin de faire. – Joeblackdev

+0

Ok, je vais vérifier ... –