2012-12-22 3 views
2
<tr valign="middle" align="center"> 
<td><b>someNumbers</b></td> 
<td width="22" height="22" background="..." class="SomeIntrestingClass">xxxxx</td> 
<td width="22" height="22" background="..." class="SomeIntrestingClass">xgdsx</td> 
<td width="22" height="22" background="..." class="SomeIntrestingClass">xyzzx</td> 
<td width="22">&nbsp;</td></tr> 

Je fais une application qui nécessite des données du site Web. Je dois extraire les valeurs « someNumbers » et les valeurs du td ex: « xyzzx » ...
Le problème que j'ai est « someNumbers j'ai essayé de ne pas avoir une classe afin d'utiliser
doc.getElementsByAttributeValue(key, value)
mais l'attribut est le même dans d'autres parties du document. Comment puis-je extraire ces valeurs en utilisant JSoup ou d'autres idées brillantes? Merci pour tout conseil.Raclage du code HTML avec des attributs

+0

Pouvez-vous sélectionner tout le 'td' et obtenir uniquement le contenu du texte? – nhahtdh

+0

Je peux simplement sélectionner l'étiquette td. Mais cela entraînera des résultats de 1k et j'utilise juste 30% de ce que 'someNumbers' sera très difficile à distinguer. Mais mal essayer ça. – wtsang02

Répondre

0

Document.select(...); Qu'est-ce que cette méthode fait, nous sommes en mesure d'utiliser des « sélecteurs css » comme td.class ou tr td #id et juste les utiliser comme si elles étaient dans cette sélecteurs CSS article dans Jsoup.

-1

<td[^<]+?>*</[^<]+?> utiliser comme l'expression régulière et stocker tout dans un tableau

puis retirez chacun en retirant <td[^<]+?> puis ce </[^<]+?>.

+0

-1. L'OP utilise déjà un analyseur HTML approprié. – nhahtdh

+0

S'il vous plaît lire [this] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) – wtsang02

Questions connexes