Je veux gratter un site Web d'une station de télévision avec Python et Beautifulsoup4.Trouver et obtenir des données avec Beautiful Soup
L'URL du site entier est que je lis dans: http://www.tve.es/alacarta/videos/aguila-roja/
Avec la commande html = soup.find_all("div", class_="extra mark")
I Extrait du paragraphe contenant les informations intéressantes: Nombre de saisons affiche et une brève description de chaque saison.
Dans le code HTML de la page originale, cette partie ressemble à ceci:
Comment puis-je déterminer le nombre de saisons? J'imagine que cela doit être quelque chose avec la recherche du nombre (longueur) de l'objet
<p class="ladillo">
ou de<span>Season xy</span>
.Comment puis-je extraire la description/résumé de chaque saison? Surtout parce que les deux premières saisons contiennent une étiquette comme
<span style>
, mais le reste des saisons ne possèdent pas cette étiquette. De plus, l'ensemble<p>
« s me confondez ...
(jusqu'à présent, je ne faisais que travailler avec des expressions régulières et je ne pouvais pas trouver des informations concernant mon problème dans le bs-documentation officielle).
<div class="extra mark">
<p></p>
<p>
"Introduction with text"
</p>
<p>
<span style=light-height: 1.6em;">
"Another words for introduction"
</span>
</p>
<p>
"Final part of introduction"
</p>
<p>
<strong style="color: rgb(51, 102, 255); line-heigt: 20.8px;">
"This content is not available in the United States and Canada"
</strong>
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 1</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season 1"
</span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 2</span>
</p>
</h3>
<p></p>
<p>
<span style>
"Description of season2"
<span>
</p>
<p></p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 3</span>
</p>
</h3>
<p></p>
<p>
"Description of season 3"
</p>
<p></p>
<h3>
<p class="ladillo">
<span>Season 4</span>
</p>
</h3>
<p></p>
<p>
"Description of season 4"
</p>
<p></p>
<div class="MenuBlind">
....
</div>
</div>
Merci beaucoup, Bill! –
Vous êtes le bienvenu, Tim. –