J'utilise rvest pour gratter des données à partir des tables HTML d'un site Web interne. La couleur des lignes est significative, donc je veux extraire l'attribut BGCOLOR
comme une colonne dans ma table finale, mais bien sûr html_table()
extrait seulement le contenu.Comment inclure des attributs dans une table html Web-gratté
Voici ce que j'ai jusqu'ici. Un extrait de la table html est ci-dessous. Comment puis-je inclure une colonne pour la couleur?
html_nodes(samplepage,"table")
tbl_content <- samplepage %>%
html_nodes("table") %>%
html_table(fill = TRUE, trim = TRUE)
tbl_content
<tr BGCOLOR = "#F8C0E0">
<td> BASOPHILS <td> microl <td> 0.477 <td> 0.425 <td align="center"> 0.052 <td align="center"> 1.920 <td align="center"> 51.5 <td align="center"> 32
</tr>
<tr BGCOLOR = "#F8F0B0">
<td> CALCIUM <td > mg/dl <td> 12.2 <td> 1.7 <td align="center"> 7.6 <td align="center"> 14.9 <td align="center"> 71 <td align="center"> 33
</tr>
Terrific! J'ai utilisé la deuxième méthode, plus simple, et cela a fonctionné comme un charme. J'ai dû définir header = FALSE dans la fonction html_table(), cependant, pour les aligner correctement. Je vous remercie! – cricketbird