2017-07-05 3 views
4

J'ai configuré l'alerte dans Grafana hier et je reçois des alertes de deux serveurs. Ce sont toujours les mêmes deux serveurs qui ont des E/S élevées, un processeur élevé ou quoi que ce soit d'autre.Valeurs fausses élevées dans Grafana provoquant de fausses alertes

Le fait est qu'ils n'ont pas de telles données. En fait, ils sont presque inactifs. Tous les serveurs sont configurés exactement de la même manière via Ansible. Donc, la configuration de Telegraf est la même sur tous les serveurs.

De plus, si je filtre les statistiques dans Grafana sur le serveur correspondant, les données affichées dans le graphique sont correctes comme vous pouvez le voir dans la capture d'écran ci-dessous. Le test de règle entraîne toujours un faux positif.

Screenshot of Grafana Graph of server with correct data and 'Test Rule' with wrong result

j'ai vérifié vmstat qui affiche également des informations correctes:

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- 
r b swpd free buff cache si so bi bo in cs us sy id wa st 
1 0 47100 151152 20948 454556 2 2 16 38 2 1 2 1 96 0 1 
0 0 47100 151136 20948 454592 0 0  0  0 125 135 0 1 96 0 2 
0 0 47100 150408 20956 454584 0 0  0 84 222 282 1 3 93 0 4 
0 0 47100 150424 20956 454592 0 0  0  0 151 225 0 0 97 0 2 
0 0 47100 150424 20956 454592 0 0  0  0 115 140 0 0 96 0 4 
0 0 47100 150424 20956 454592 0 0  0  0 109 125 0 0 97 0 2 
0 0 47100 150424 20956 454592 0 0  0  0 121 131 0 0 98 0 2 
0 0 47100 150412 20972 454576 0 0  0 92 139 208 0 1 96 0 3 
0 0 47100 150456 20972 454592 0 0  0  0 65 117 0 0 99 0 1 
0 0 47100 150876 20972 454592 0 0  0 16 692 705 2 4 88 0 5 

Et le telegraf.log si quelque chose ne va pas.

2017-07-07T09:22:04Z I! Starting Telegraf (version 1.3.3) 
2017-07-07T09:22:04Z I! Loaded outputs: influxdb 
2017-07-07T09:22:04Z I! Loaded inputs: inputs.diskio inputs.processes inputs.swap inputs.system inputs.redis inputs.disk inputs.kernel inputs.mem inputs.net inputs.nginx inputs.postgresql inputs.cpu 
2017-07-07T09:22:04Z I! Tags enabled: environment=production host=om-1-prod rails_env=production role=telegraf 
2017-07-07T09:22:04Z I! Agent Config: Interval:10s, Quiet:false, Hostname:"om-1-prod", Flush Interval:10s 

Des idées quoi de mal ici?

Répondre

0

J'ai continué à surveiller les serveurs manuellement et j'ai trouvé ces pics élevés pendant une courte période de temps.

Donc le problème ici est que ces pics ne sont pas visibles dans la plage de temps sélectionnée au sein de Grafana. Il est agrégé à une moyenne plus petite qui ressemble alors à seulement 40 ips. Si je zoom dans la plage de temps correspondante, je vois ces pics. En bref: Il n'y a pas de problème avec Grafana, Telegraf d'InfluxDB. Le problème existait entre le clavier et la chaise.