Je suis analyse ce segment de page:Parse la page HTML en Java
<tr valign="middle">
<td class="inner"><span style=""><span class="" title=""></span> 2 <span class="icon ok" title="Verified"></span> </span><span class="icon cat_tv" title="Video » TV" style="bottom:-2;"></span> <a href="/VALUE.html" style="line-height:1.4em;">VALUE</a> </td>
<td width="1%" align="center" nowrap="nowrap" class="small inner" >VALUE</td>
<td width="1%" align="right" nowrap="nowrap" class="small inner" >VALUE</td>
<td width="1%" align="center" nowrap="nowrap" class="small inner" >VALUE</td>
</tr>
J'ai ce segment à la télévision variable: HtmlElement tv = tr.get(i);
Je lis tag <a href="/VALUE.html" style="line-height:1.4em;">VALUE</a>
de cette façon:
HtmlElement a = tv.getElementsByTagName("a").get(0);
object.name.value(a.getTextContent());
url = a.getAttribute("href");
object.url_detail.value(myBase + url);
Comment puis-je lire uniquement le champ VALUE des autres sections <td>....</td>
?
Quel cadre utilisez-vous pour l'analyse syntaxique? – Henrik
peut-être utiliser 'tv.getElementsByTagName (" td ")' et boucler sur le résultat et obtenir le contenu du texte en utilisant 'getTextContent()'? avez-vous essayé cela? – A4L