2011-03-03 11 views
37

L'abondance de parseurs HTML à choisir (et le bâton avec) est ahurissant:TagSoup vs Jsoup vs HTML Parser vs vs HotSax

http://java-source.net/open-source/html-parsers

Comment choisir celui qui convient le mieux à la exigences suivantes:

  1. matures (moins de bugs que le reste)
  2. en direct et la respiration (c.-à-être maintenu)
  3. rapide et économe en ressources (destiné à fonctionner sur Android)

D'après votre expérience, qui parser HTML recommanderiez-vous (pour répondre aux exigences ci-dessus) et pourquoi?

+0

@George Bailey Merci. Ceci est une excellente ressource. Vous avez bien compris que je suis à la recherche de la solution * optimale * pour Android. C'est-à-dire que Jsoup peut être génial sur un ordinateur de bureau/serveur mais peut-être qu'un paquet différent serait meilleur pour un téléphone portable. –

+1

Mise à jour: Grâce au lien @George Bailey j'ai trouvé une autre ressource: http://stackoverflow.com/questions/3152138/what-are-the-pros-and-cons-of-the-leading-java-html-parsers –

+1

Avez-vous trouvé un analyseur html approprié optimal pour Android? J'utilise actuellement JSoup. Fonctionne bien mais je veux savoir si elle peut être optimisée. – Enigma

Répondre

36

Eh bien, je l'ai trouvé la réponse qui a été donnée par @BalusC sur un different thread:

  1. Si vous voulez juste utiliser un outil basé sur XML pour le parcourir: JTidy.
  2. Si vous aimez test unitaire HTML: HtmlUnit
  3. Si vous souhaitez extraire des données spécifiques du HTML: Jsoup

Merci @BalusC.