J'essaie d'utiliser Beautiful Soup pour gratter des citations de films de rottentomatoes.com. La source de la page est intéressante en ce que les citations sont directement exécutées par une classe d'étendue "bold quote_actor", mais la citation elle-même est dans une plage sans classe, par ex. (https://www.rottentomatoes.com/m/happy_gilmore/quotes/): screenshot of web sourceBelle soupe - sélection du texte de l'élément span suivante sans classe
Je voudrais utiliser find_all de Beautiful Soup pour capturer toutes les citations, sans le nom de l'acteur. Je l'ai essayé beaucoup de choses sans succès, tels que:
moviequotes = soup(input)
for t in web_soup.findAll('span', {'class':'bold quote_actor'}):
for item in t.parent.next_siblings:
if isinstance(item, Tag):
if 'class' in item.attrs and 'name' in item.attrs['class']:
break
print (item)
J'apprécierais beaucoup des conseils sur la façon de naviguer dans ce code et de définir le texte brut résultant cite dans un objet que j'utilise utiliser avec Pandas, etc
Parfait! Merci beaucoup. J'ai beaucoup appris en examinant attentivement votre réponse. – user8422605