Je veux gratter cette URL: https://www.xstreetsl.com/modules.php?searchSubmitImage_x=0&searchSubmitImage_y=0&SearchLocale=0&name=Marketplace&SearchKeyword=business&searchSubmitImage.x=0&searchSubmitImage.y=0&SearchLocale=0&SearchPriceMin=&SearchPriceMax=&SearchRatingMin=&SearchRatingMax=&sort=&dir=ascJe veux gratter un site en utilisant GAE et afficher les résultats dans une Google entité
Allez dans chacun des liens et en extraire divers éléments d'information par exemple autorisations, prims, etc., puis publiez les résultats dans une entité sur google app engine.
Je veux savoir comment s'y prendre?
Chris
GAE fournit le module urlfetch comme moyen de contourner la restriction d'ouverture de socket. –
@gnibbler: c'est bon à savoir: je suppose que le problème est que ça ne marchera pas avec les frameworks que j'ai listés, donc ça voudrait dire écrire quelque chose à partir de zéro. BeuatifulSoup pourrait encore être utilisé pour traiter les résultats. Merci pour le heads-up +1. – jkp
vous pouvez toujours utiliser urllib2 sur GAE, mais il est ensuite enroulé autour d'urlfetch, avec quelques fonctionnalités supprimées – hoju