2013-08-22 3 views
0

Je travaille sur un crawler et j'ai besoin de déterminer quel âge a une page du serveur.Http déterminer quel âge est page

Je dois faire cela parce que je veux analyser uniquement les pages de la semaine dernière.

J'ai essayé de trouver des informations sur l'en-tête HTTP, mais je ne trouve aucune information sur la date de création de la page.

Répondre

0

Essayez de vérifier "Expire" dans l'en-tête de réponse.

En fait, chaque page ou ressource qui vous est demandée doit contenir cette information.

+0

Cela indique quand une page devrait devenir obsolète ou être susceptible de changer, pas quand elle a changé. – hexafraction

+0

Donc, je ne pense pas que le serveur vous dise où cette page a été créée ou générée. Il n'y a juste pas d'information comme ça. –

0

Les en-têtes HTTP ne contiennent généralement pas cette information. Age ne porte que l'âge d'un document dans un cache proxy, ce qui n'est pas ce que vous voulez ici.

Cependant, bien que pas l'âge réel, vous pouvez obtenir la dernière date de modification avec Last-Modified.

0

Étant donné qu'aucun serveur n'est obligé de fournir cette information, le seul moyen fiable dont je dispose est de scanner chaque semaine et de voir si la page a changé ou non. Cela nécessite bien sûr de sauvegarder toutes les pages.

L'enregistrement des pages pourrait être implémenté en stockant uniquement une somme de contrôle. Cette somme de contrôle peut être stockée dans un graphe de mots acyclique dirigé si vous voulez économiser de la mémoire.

Le problème avec ceci est que chaque page avec seulement une petite quantité de données dynamiques ne peut pas être identifiée (dynamique pourrait changer les publicités). Une combinaison de Last-Modified et de mise en cache pourrait être utile.

Questions connexes