2010-10-22 5 views
5

Je cherche une bibliothèque java légère simple qui analyse HTML. J'ai beaucoup regardé et il y a beaucoup d'options là-bas. Mais je ne peux pas trouver quelque chose de simple. Je voudrais vraiment avoir quelque chose comme pyquery en python sauf en java. Mes exigences sont: rapide, facile à utiliser et léger.jquery comme lib dans java

Pour quoi en ai-je besoin? Je ne sais pas si cela compte, mais j'ai besoin d'indexer des parties d'un document html. J'espère donc pouvoir sélectionner rapidement une partie de ce document, puis l'analyser.

Répondre

6

J'ai utilisé HTMLParser par le passé. Je n'étais pas très content de ça. J'ai trouvé tagsoup et jsoup. J'aime vraiment jsoup. Ne l'ont pas utilisé largement encore, mais vous pouvez faire quelque chose comme:

Elements resultLinks = doc.select("h3 > a"); // direct a after h3 
+0

Après avoir utilisé jsoup, je pense que c'est exactement ce que je cherchais, je ne comprends pas pourquoi après tant de googling, il n'a pas été trouvé, mais il a presque toutes les fonctionnalités dont j'ai besoin. –

2

essayez groovy. Il a un certain nombre de "slurpers", qui sont des listes de lecture (DSL) pour la lecture dans le balisage comme XML et HTML, ainsi que JSON. here par exemple.

+0

pourquoi cette obtenir voté vers le bas? – Ben

+3

et il est assez boiteux de rejeter sans commentaire pourquoi – Ben

+0

Groovy est un langage qui s'exécute sur la JVM et essentiellement très facile à inclure dans votre projet. Je ne vois pas pourquoi cela aurait été rejeté. –

0

Si vous voulez une bibliothèque de type jQuery, comme le suggère le titre de votre question, vous devriez jeter un oeil sur GWT. GWT vous permet d'explorer le DOM de votre page.

Essayez le tutoriel et en 30 minutes, vous serez sûr si vous voulez en savoir plus ou non ...

+0

Cela semble vraiment lourd pour juste l'analyse du texte :( –

1

Utilisez tagsoup pour normaliser le code HTML en xhtml et XOM pour analyser le document résultant. Ce n'est pas si dur. XPath vous donnera une sélection facile similaire aux sélecteurs CSS.

+1

J'ai trouvé jsoup à http://jsoup.org/ est-ce similaire à ce que tagsoup est? –

+0

Looks similaires. Tagsoup a une bibliothèque de java que vous pouvez télécharger aussi, mais il ne donne pas de capacité d'analyse ou de recherche, il produit juste un bon xml que vous pouvez analyser –