2010-07-10 3 views
0

Je suis en train de créer un site d'agrégation de nouvelles et je cherche un moyen de récupérer les anciens flux (d'un site web particulier) dans le système. Pendant ce cours, je suis tombé sur Feedjack. On dit qu'il gère ce dont j'avais besoin. J'ai donc commencé à plonger dans le code source. (Je ne veux pas dans mon projet Plug it django directement.) Tout ce que je vois est cette ligne:Comment FeedJack récupère-t-il les flux historiques

self.fpf = parse_feed(self.feed.feed_url, agent=USER_AGENT, etag=self.feed.etag) # in bin/feedjack_update.py 

Je ne sais pas comment cela gère l'analyse d'alimentation historique. Puis-je savoir ce qui me manque? Une autre question que j'ai est, encore moins feedjack, comment puis-je accéder à des flux historiques de n'importe quel site Web?

Répondre

0

Les flux historiques ne sont pas disponibles sur les sites Web. Malheureusement, la seule façon de "l'accéder" est de le stocker soi-même dans une base de données. Pour les flux communs, vous pourrez peut-être l'obtenir d'un autre agrégateur. Sinon, vous construisez l'historique à partir du moment où le flux est ajouté pour la première fois.

0

La seule option que je peux voir est d'utiliser Google Reader. Il y a un blogpost about constructing feed history of any feed. Je ne veux pas coller sur le service pour obtenir simplement les flux historiques. De toute façon, s'il n'y a pas de meilleure option, j'irais pour ça.

+0

J'ai lu les commentaires dans le blog de Google Reader mentionné ci-dessus et a également essayé NewsBlur.com. Les deux semblent échouer à la même chose, vous ne pouvez pas garantir une ancienne alimentation sauf si quelqu'un s'est déjà abonné à ce site au moins une fois. Donc, google reader ne récupère que les entrées déjà mises en cache. Si personne ne s'est déjà abonné à ce site Web, rien ne se trouve dans son cache et vous ne pouvez pas le récupérer sur cette plateforme Google Reader. Jeu terminé! –

Questions connexes