je veux ramper fils d'un forum allemand. http://www.musiker-board.de/Scrapy: Liens avec la suite Expression régulière
Les différents réels sont situés au sous-forums http://www.musiker-board.de/forum
A subforum: musiker-board.de/forum/subforumname
Les fils réels ont ces adresses: musiker-board.de/threads/threadname
Je veux suivre tous les liens de tous les sous-forums et extraire toutes les discussions en eux, mais l'URL des fils wouldnt correspondent à l'URL de démarrage plus.
Toutefois, si je sélectionne « musiker-board.de/ » comme URL de début il ne marche pas suivre les liens de tous les sous-forums.
Voici le code:
allowed_domains = ["musiker-board.de"]
start_urls = ['http://www.musiker-board.de/forum/'
]
rules = (
Rule(SgmlLinkExtractor(allow=[r'forum/\w+']), follow=True),
Rule(SgmlLinkExtractor(allow=[r'threads/\w+']), callback='parse_item'),
)
def parse_item(self, response):
#extract items...
Que dois-je faire pour suivre toutes musiker-board.de/forum/subforum et d'extraire toutes musiker-forum.de/threads/threadname?
Je réinstallée scrapy et maintenant il fonctionne en quelque sorte – user3811872