2009-11-09 5 views
3

De googler autour d'elle ressemble à un vieux bug de Google est revenu ....Google pense que le sitemap n'est pas valide, mais l'index du sitemap et le sitemap lui-même réussissent la validation du sitemap. Erreur: balise XML manquant

http://groups.google.com/group/Google_Webmaster_Help-Tools/browse_thread/thread/4e43c2efecb881cf?pli=1

Mon fichier d'index de plan du site et plan du site lui-même valide ici: http://www.validome.org/google/validate

mais Google webmaster Tools dit:

Missing XML tag
This required tag is missing. Please add it and resubmit.

  1. quelqu'un peut-il confirmer si thi s question ressemble à une récurrence du bug de Google?
  2. Existe-t-il une solution de contournement à leur bogue lorsque la spécification de quelque chose de différent peut inciter Google à accepter le sitemap?

post-scriptum Je ne peux pas vous donner un lien vers le fichier réel parce qu'il est un client, mais je générer le fichier via XMLWriter pour vous assurer qu'il est XML valide ainsi ...

MISE À JOUR En fait, je pense qu'il pourrait ont travaillé ... leur page de rapport est un peu bizarre ... il montre une page basée sur la date actuelle mais vient de remarquer que sous l'erreur, il dit d'abord détecté en Septembre, et il rapporte également le nombre d'URL trouvées dans le fichier sitemap, donc peut-être les erreurs sont anciennes ...

Je vais regarder les deux prochains jours et fournir une mise à jour quand j'ai quelque chose de nouveau.

+0

UNE AUTRE MISE À JOUR: J'ai découvert quel était le problème ... et malheureusement, je ne peux pas partager la réponse à cause de la NDA, mais c'est totalement inattendu et dans une direction différente de ce dont nous avons discuté. – joedevon

Répondre

0

Sans voir le XML, il est difficile de savoir quel est le problème. Mais, sans voir le XML (et de lire les discussions Google), il semble que le problème est pas que le sitemap est XML non valide et plus comme le problème est que l'analyseur de Google attend quelque chose au-delà de ce qui est strictement requis par le schéma XML . Étant donné que les tests automatisés de Google auraient certainement détecté ce problème s'il affectait tous les sitemaps, je suppose que votre sitemap particulier est à l'origine du problème. Je considérerais donc l'approche simple habituelle pour détecter les problèmes de contenu: supprimer la moitié du contenu et voir si le problème persiste. Si c'est le cas, essayez de supprimer l'autre moitié. Si l'une des moitiés passe bien, continuez à subdiviser jusqu'à ce que vous ayez trouvé le coupable. Si les deux échouent, continuez à diviser la moitié jusqu'à ce que vous manquiez de contenu ou que le problème disparaisse, puis identifiez le motif coupable. Sinon, vous pouvez aller dans la direction opposée: générez un tout nouveau fichier sitemap, remplissez-le avec un lien factice et assurez-vous que Google l'accepte. En supposant que cela fonctionne, ajoutez votre contenu dans un morceau à la fois jusqu'à ce qu'il casse, puis identifiez le coupable. Si cela ne fonctionne pas, essayez de copier un fichier sitemap de bonne qualité à partir de quelque part (par exemple, http://www.google.com/hostednews/sitemap_index.xml), d'en extraire le contenu et d'insérer le vôtre.

+0

Le lien Google est en panne, l'exemple était-il un lieu inventé ou? – joedevon

+0

non, lien réel. Je l'ai extrait des liens sitemaps sur http://www.google.com/robots.txt. Intéressant, vous ne pouvez pas accéder au sitemap de Google. Êtes-vous assis derrière un proxy d'entreprise ou une autre raison évidente que vous ne pouvez pas y accéder?Essayez de visiter google robots.txt et voyez si vous voyez des liens différents là-bas ... pourrait être une chose de géo-localisation? (Je suis à Berkeley, CA) –

+0

Hmm, peut-être proxy de l'entreprise bien que ce soit une page étrange pour refuser l'accès à ... peut-être qu'il pense que c'est un comportement de bot? – joedevon