Je veux gratter un site en utilisant GAE et afficher les résultats dans une Google entité

Pour normaliser le HTML en utilisant une pure bibliothèque Python, j'ai eu de meilleures expériences avec html5lib que BeautifulSoup.

Cependant, vous souhaitez simplement extraire des informations structurées simplement, ce qui ne nécessite pas de normaliser le code HTML. J'ai quelques applications de grattage sur Google App Engine qui utilisent my own xpath library qui fonctionne avec du HTML brut. Vous pouvez également utiliser des expressions régulières pour des tâches uniques.

Source

2010-03-09 05:45:18 hoju

Il y a plusieurs bibliothèques de grattage d'écran belle que vous pouvez utiliser en Python.

Peut-être le plus facile de frapper un grattoir avancé est scrapy. Il s'appuie sur Twisted pour implémenter le moteur principal mais fournit une interface très facile à utiliser pour implémenter le code de grattage personnalisé.

Sinon, vous pouvez envisager de le faire plus manuellement avec quelque chose comme BeautifulSoup, ou Mechanize qui fournit une implémentation de navigateur "mécanique".

BeautifulSoup et Mechanize devraient tous deux fonctionner dès la sortie de la boîte sur App Engine - il fournit une enveloppe autour de httplib et urllib qui utilise urlfetch comme backend. Seul le scrapy sera problématique, en raison de son utilisation de torsadé. [merci à Nick Johnson pour la mise à jour].

Source

2010-03-09 03:34:54 jkp

GAE fournit le module urlfetch comme moyen de contourner la restriction d'ouverture de socket. –

@gnibbler: c'est bon à savoir: je suppose que le problème est que ça ne marchera pas avec les frameworks que j'ai listés, donc ça voudrait dire écrire quelque chose à partir de zéro. BeuatifulSoup pourrait encore être utilisé pour traiter les résultats. Merci pour le heads-up +1. – jkp

vous pouvez toujours utiliser urllib2 sur GAE, mais il est ensuite enroulé autour d'urlfetch, avec quelques fonctionnalités supprimées – hoju

Je veux gratter un site en utilisant GAE et afficher les résultats dans une Google entité

Répondre

Questions connexes