Je suis nouveau à Python et je suis en train de chercher dans html avec des expressions régulières qui ont été analysées avec BeautifulSoup. Je n'ai eu aucun succès et je pense que la raison en est que je ne comprends pas complètement comment configurer correctement les expressions régulières. J'ai regardé des questions plus anciennes sur des problèmes similaires mais je ne l'ai toujours pas compris. Si quelqu'un pouvait extraire le "/ torrent/32726/0 /" et "Slackware Linux 13.0 [x86 DVD ISO]" ainsi qu'une expression détaillée du fonctionnement de l'expression régulière, ce serait vraiment utile.Analysée Extraction HTML avec Python
<td class="name">
<a href="/torrent/32726/0/">
Slackware Linux 13.0 [x86 DVD ISO]
</a>
</td>
Edit: Ce que je voulais dire est, je suis en train d'extraire "/ torrent/32726/0 /" et "Slackware Linux 13.0 [x86 DVD ISO]" à l'aide BeautifulSoups fonctions pour rechercher l'arbre d'analyse syntaxique. J'ai essayé plusieurs choses après avoir cherché et lu la documentation, mais je ne suis toujours pas sûr de la façon de procéder. BeautifulSoup pourrait également extraire des valeurs de nœuds à partir de votre code HTML
Maintenant, ils utilisent parseurs et veulent encore use regexes oO Que voulez-vous, extraire le contenu des ancres avec un href commençant par '/ torrent /'? Vous devez marcher l'arbre d'analyse. Vous pouvez utiliser les expressions rationnelles pour savoir si le nœud actuel est ce que vous voulez, mais vous devez parcourir l'arbre construit par l'analyseur. – delnan
Je suppose que j'utilisais la mauvaise terminologie. Vous avez raison, je veux prendre cet arbre d'analyse que génère BeautifulSoup, et je veux extraire "/ torrent/32726/0 /" et "Slackware Linux 13.0 [x86 DVD ISO]" et les stocker dans leur propre dictionnaire. – FlowofSoul