2010-01-03 6 views
-1

J'ai un site énorme, avec plus de 5 millions d'url.stratégie de génération de sitemap

Nous avons déjà pagerank 7/10. Le problème est qu'en raison de 5 millions d'url et parce que nous ajoutons/supprimons de nouvelles urls quotidiennement (nous ajoutons ± 900 et nous en retirons ± 300), google n'est pas assez rapide pour indexer chacun d'entre eux. Nous avons un module perl énorme et intense pour générer ce sitemap qui est normalement composé de 6 fichiers sitemap. Pour sûr, google n'est pas assez rapide pour ajouter toutes les urls, surtout parce que normalement, nous recréons tous ces sitemaps tous les jours et soumettre à google. Ma question est la suivante: quelle devrait être une meilleure approche? Devrais-je vraiment m'envoyer 5 millions d'urls à google tous les jours même si je sais que google ne sera pas en mesure de traiter? Ou devrais-je envoyer juste des permaliens qui ne changeront pas et le robot d'exploration de Google trouvera le reste, mais au moins j'aurai un index concis chez google (aujourd'hui j'ai moins de 200 de 5.000.000 d'indexés)

+2

Eh bien, si vous supprimez tant d'urls par jour .. pourquoi google l'index? – Shoban

Répondre

1

Quel est le point d'avoir beaucoup de sites indexés qui sont supprimés tout de suite? Les pages temporaires sont sans valeur pour les moteurs de recherche et leurs utilisateurs après leur élimination. Je vais donc laisser les robots d'indexation des moteurs de recherche décider si une page vaut la peine d'être indexée. Dites-leur simplement les URL qui vont persister ... et implémentez quelques pages de liste (si elles ne le sont pas encore), qui permettent d'explorer vos pages plus facilement.

Note ci-dessous: 6 fichiers sitemap pour les URL de 5 m? AFAIK, un fichier sitemap ne doit pas contenir plus de 50k URL.

+0

vous le diviser en un index sitemap pointant vers N fichiers chacun avec 50k URL –

+0

Qui a dit que les pages sont supprimées tout de suite? Considérez les articles d'enchères eBay avec une durée de vie de 7 jours - est-ce une mauvaise idée de rendre ceux indexables par les moteurs de recherche? –

+0

@VP Je sais, je me demandais juste parce que vous avez écrit 6 fichiers –

0

Pourquoi don ' Il vous suffit de comparer chaque fois votre sitemap avec le précédent, et d'envoyer uniquement à google les URL qui ont changé!

+0

Je le fais déjà. Le problème est que nous devons supprimer aussi les URL. –

+0

J'aurais pensé que google serait assez intelligent pour supprimer les URL si vous leur envoyez ceux qui n'existent plus. – James

+0

Chaque élément de sitemap doit inclure un horodatage lastmod, donc je ne vois pas pourquoi Google devrait avoir un problème pour filtrer ceux qui n'ont pas changé depuis la dernière fois que le sitemap a été indexé. –

1

Lorsque les URL changent, vous devez faire attention à votre état de fonctionnement 301 (redirection permanente).

Modifier (raffinement): Encore vous devriez essayer que vos modèles d'URL deviennent stables. Vous pouvez utiliser 301 pour les redirections, mais le maintien d'un grand nombre de règles de redirection est fastidieux.