Je me suis réveillé ce matin avec une page que notre cluster était en panne. Il est revenu tout de suite. J'ai trouvé des journaux d'erreurs de journal avec des entrées sur IO prenant plus de 15 secondes. Notre serveur de surveillance avait essayé de faire un ping sur le serveur et avait une erreur de timeout.La mise à jour des statistiques semble poser problème
J'ai vérifié un de nos outils de surveillance pour voir ce qui se passait à 4h30 du matin. Il semble que les statistiques soient mises à jour dans l'une de nos grandes bases de données. L'outil montre que notre disque est maxxé. Je vois des temps d'occupation très élevés pour l'un des disques.
Maintenant sqlagent progresse dans toutes les autres bases de données en faisant la même chose par ordre alphabétique. Nous avons des statistiques de mise à jour automatique - mais je pensais que cela se produisait au besoin. Je n'ai aucun travail de mise à jour de statistiques activé en ce moment (que je connais - et le moniteur de travail ne montre aucun travail en cours d'exécution), donc je ne suis pas vraiment sûr de ce qui cause cela.
http://support.microsoft.com/default.aspx?scid=kb;en-us;195565 - confirme mes réflexions sur la nature nécessaire des autostats.
La même chose s'est également produite la nuit dernière vers 18h30 - sur la même grande base de données - quelques statsman stats de ... select.
Les disques sont sur un réseau SAN et nous courons la dernière version de SQL 2005.
Nous tirons 300 Mo/s, donc nous allons examiner cela. – Sam