2013-01-16 2 views
0

Dans mon journal des erreurs Apache, je peux voir les erreurs suivantes a pris une énorme quantité tous les jours.Bots jette 500 erreur dans le journal d'accès apache

[Tue Jan 15 13:37:39 2013] [error] [client 66.249.78.53] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace. 

Quand je vérifie la corroesponding IP, date et heure avec le journal d'accès, je peux voir les éléments suivants

66.249.78.53 - - [15/Jan/2013:13:37:39 +0000] "GET /robots.txt HTTP/1.1" 500 821 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 

J'ai testé mon fichier robots.txt dans l'outil Google Webmster -> Santé -> URL bloquées et ça va.

également lorsque des images accessibles par son bot, il jette l'erreur suivante,

error_log

[Tue Jan 15 12:14:16 2013] [error] [client 66.249.78.15] Request exceeded the limit of 10 internal redirects due to probable configuration error. Use 'LimitInternalRecursion' to increase the limit if necessary. Use 'LogLevel debug' to get a backtrace. 

Accessed_URL

66.249.78.15 - - [15/Jan/2013:12:14:16 +0000] "GET /userfiles_generic_imagebank/1335441506.jpg?1 HTTP/1.1" 500 821 "-" "Googlebot-Image/1.0" 

En fait, l'URL de l'image ci-dessus (et plusieurs autres images dans notre accès log) ne sont pas disponibles sur notre site (ils étaient disponibles avant une refonte du site que nous avons fait en août 2012), et nous avons jeté 404 erreurs quand nous allons à ces r invalides ressources. Cependant, de temps en temps, il semble que les bots (et même les visiteurs humains) génèrent ce type d'erreur dans notre journal d'accès/erreur, uniquement pour les ressources statiques comme les images qui n'existent pas, et notre fichier robots.txt . Le serveur lance une erreur 500 pour eux, mais en fait quand je l'essaie de mon navigateur - les images sont 404 et le fichier robots.txt est 200 (succès).

Nous ne savons pas pourquoi cela se produit et comment une image robot.txt et inavalide valide peut générer une erreur 500. Nous avons un fichier .htaccess et nous sommes sûrs que notre application (framework Zend) n'est pas atteinte, parce que nous avons un journal séparé pour cela. Par conséquent, le serveur lui-même (or.htaccess) lance l'erreur 500 "une fois de temps en temps" et je ne peux pas imaginer pourquoi. Cela peut-il être dû à trop de demandes au serveur, ou comment puis-je déboguer davantage?

Notez que nous ne remarqué ces erreurs après notre Revalorisation de conception, mais le serveur Web lui-même est resté le même

+0

Cela doit être un problème avec vos règles de réécriture. Si possible, désactivez les redirections et voyez si cela se produit toujours. – AlecTMH

Répondre

1

Il pourrait être utile d'enregistrer le domaine que le client accède. Votre serveur peut être accessible via plusieurs domaines, y compris l'adresse IP brute. Lorsque vous testez, vous le faites via le domaine principal et tout fonctionne comme prévu. Que faire si vous essayez d'accéder aux mêmes fichiers via votre adresse IP (http://1.2.3.4/robots.txt) par rapport au domaine (http://example.com/robots.txt)? Aussi example.com vs www.example.com ou toute autre variation qui pointe vers le serveur.

Les robots peuvent parfois conserver les informations IP/domaine longtemps après qu'une adresse a changé et peuvent tenter d'accéder à quelque chose que les règles ont été modifiées il y a plusieurs mois.

+0

Merci de me l'avoir rappelé. Oui j'ai un domaine d'alias référez-vous à mon dossier d'images 'http://mydomain.com/images/ = alias domain (http://subdomain.com)'. Maintenant, lorsque je télécharge un fichier .htaccess de base sur le chemin 'http://mydomain.com/images/ ', il lance réellement 404. Après 3 jours j'ai vérifié le fichier erro_log et il n'y a pas de redirection. –

Questions connexes