J'ai besoin d'aide pour trouver comment extraire Grab et le numéro suivant data-b. Il ya beaucoup de <tr>
dans la page Web complète non modifiée et j'ai besoin de filtrer en utilisant le "besoin" juste avant </a>
. J'ai essayé de le faire avec une belle soupe, même si on dirait que lxml pourrait mieux fonctionner. Je peux obtenir soit tous les <tr>
s ou seulement les lignes < a>...< /a>
qui contiennent des besoins, mais pas seulement les <tr>
qui contiennent des besoins dans cette ligne <a>
.Extrait 2 éléments d'information de html en python
<tr >
<td>3</td>
<td><a href="/local/app">Leave</a></td><td><a href="https://www.leave.com/" target="_blank">Useless</a></td>
<td class="text-right"> <span class="float2" data-a="24608000.0" data-b="518" data-n="818">Garbage</span></td>
<td class="text-right"> <span class="Float" data-a="3019" data-b="0.0635664" data-n="283">Garbage2</span></td>
<td class="text-right">7.38%</td>
<td class="text-right " >Recently</td>
</tr>
<tr >
<td>4</td>
<td><a href="/local">Grab</a></td><td><a href="https://grab.com" target="_blank">Need</a></td>
<td class="text-right"> <span class="bloat2" data="22435000.0" data-b="512" data-n="74491.2">More junk</span></td>
<td class="text-right"> <span class="bloat" data-a="301.177" data-b="35.848" data-n="0.5848">More junk2</span></td>
<td class="text-right">Some more</td>
<td class="text-right " >Recently</td>
</tr>
Merci pour toute aide!