2010-02-21 5 views
0

Nous utilisons le service payant Google CSE (moteur de recherche personnalisé) pour indexer le contenu sur notre site Web. Le site est constitué principalement de pages PHP assemblées avec des fichiers d'inclusion, mais il existe des pages dynamiques qui extraient des informations d'une base de données dans un modèle de page unique (nouvelles versions par exemple). Le problème que nous avons est que je peux définir une date d'expiration sur le contenu de la base de données de sorte que "id = 2" affichera un avis "Ce contenu a expiré". Toutefois, si l'ID 2 contient un fichier PDF téléchargé, le fichier PDF reste dans l'index de recherche. Je sais que je pourrais écrire un script de nettoyage et que je l'exécuterais en regardant la base de données, trouver le contenu expiré, vérifier si les fichiers téléchargés étaient attachés et les renommer ou les supprimer, mais il doit y avoir une meilleure solution (j'espère).Suppression des fichiers téléchargés de Google à l'expiration de l'article

S'il vous plaît laissez-moi savoir si vous avez rencontré cela dans le passé, et ce que vous suggérez.

Merci, D.

Répondre

0

Ce que nous avons fini par faire nouait un script de vérification du script de téléchargement qui une fois terminé le téléchargement en cours, les anciens fichiers étaient « dissociées » et les enregistrements DB ont été supprimés. Pour nous, cela fonctionne parce que c'est une sorte de "ajouter un/supprimer un" où nous voulons qu'un certain nombre d'éléments apparaissent dans un ordre de roulement.

0

Il est malheureusement aucun moyen de vous donner une réponse claire à ce moment: nous avons aucune connaissance de la façon dont vos fichiers PDF sont « attachés » à vos pages ou comment votre DB est structuré.

La meilleure solution serait de créer un fichier robots.txt qui bloque les URL pour les fichiers PDF particuliers que vous souhaitez supprimer. Google les déposera de l'index lors de son prochain passage (généralement dans environ une heure).

http://www.robotstxt.org/

+0

Je n'avais pas pensé à écrire dans le fichier robots ... cela pourrait fonctionner. Les fichiers sont téléchargés via un script de téléchargement, et une valeur est stockée dans la base de données pour le nom de fichier. Tous les fichiers vont dans le même répertoire, donc quelque chose comme http://www.domainname.com/uploads/pdffilehere.pdf serait le chemin, et "pdffilehere.pdf" serait stocké dans la colonne "url" de la DB . – Don

Questions connexes