2016-10-21 1 views
0

Obtenir régulièrement (3-5 fois par jour en groupe de 100-200 écrit a échoué) erreurs « de surcharge de l'appareil » dans le client aérospikeaérospike « dispositif de surcharge »/erreur « file d'attente trop profonde »

Avoir un 3 noeud cluster de noeuds c3.4x avec une utilisation significative des opérations de carte. Écriture Taille de bloc 1 Mo Augmentation du cache d'écriture max de 64 Mo à 256 Mo depuis 1 jour et toujours quelques erreurs Les erreurs de surcharge de périphérique se produisent sur 2 nœuds et pas même une seule occurrence de cette erreur sur tiers nœud.

En outre, on observe que la question ne semblant pas être lié à charger car il y a des cas où la charge est en période de pointe et la question n'a pas eu lieu alors que lorsque la charge est faible et encore la question est survenue

Une autre observation: Nous avons deux périphériques sur chaque nœud pour l'espace de noms unique. Pour les nœuds où les performances sont meilleures, la charge d'écriture est uniformément répartie entre les périphériques. Cependant ce n'est pas pareil sur les autres noeuds. Je juge ce à partir des journaux suivants:

Noeud 10.0.23.95 (Les écritures irrégulières sur les appareils) 25 octobre 2016 07:48:48 GMT: INFO (drv_ssd): (drv_ssd.c: 2093) {} userdata/dev/xvdb: used-bytes 43749001344 free-wblocks 90643 écriture-q 0 écriture (20749488,16.4) defrag-q 0 defrag-lecture (12761426,11.6) defrag-écriture (756967,0.9) oct 25 2016 07:48 : 48 GMT: INFO (drv_ssd): (drv_ssd.c: 2093) {données utilisateur}/dev/xvdf: octets utilisés 43788740224 free-wblocks 91129 écriture-q 0 écriture (7088645,8.7) defrag-q 0 defrag- read (6659887,7.8) defrag-write (403406,0.4)

Noeud 10.0.23.154 (écrit même sur les appareils) 25 octobre 2016 07:52:53 GMT: INFO (drv_ssd): (drv_ssd.c: 2093) {userdata}/dev/xvdf: octets utilisés 44678011008 free-wblocks 89862 écriture-q 0 écriture (6702031,8.6 defrag-q 0 defrag-read (6311760,7.9) defrag-write (384025,0.3) Oct 25 2016 07:52:53 GMT: INFO (drv_ssd): (drv_ssd.c: 2093) {userdata}/dev/xvdb: used-octets 44664046720 libre wblocks 89.790 écriture q 0 écriture (6928185,7.4) defrag-q 0 lu défragmentation (6418616,7.0) defrag-écriture (393286,0.3)

Répondre

1

Cela signifie que certaines de vos périphériques (SSD) sont toujours parfois, sur certains nœuds, pas en mesure de gérer la charge. Cela pourrait avoir des causes profondes:

  • voisins bruyants sur vos instances AWS (en supposant que vous utilisez les disques SSD locaux ... si vous utilisez EBS, il y aura des raisons les plus évidentes pour cela).
  • La charge entre les nœuds peut ne pas être aussi répartie que vous le pensez (le débit peut être le même, mais la taille des enregistrements accédés peut être différente).
  • Le Défragmentation ajouterons peut-être à la pression sur certains des appareils, si Défragmentation est plus actif sur certains de vos appareils (peut-être non homogène effacements, expirations, ...?)

Ma première estimation , bien que, sur la base de votre description, serait bruyant voisins performance inégale de l'appareil. J'ai certainement vu des irrégularités similaires dans les performances locales SSD des instances AWS (je travaille dans l'équipe de support d'Aerospike). Vous pouvez regarder dans les détails d'iostat pendant ces pointes pour avoir une meilleure idée de la charge spécifique sur les dispositifs SSD aussi bien que la distribution de la charge.

+1

Est-il possible que les instances mentionnées n'utilisent pas de SSD certifié Aerospike? – Aaron

+0

Nous utilisons le magasin d'instance et non EBS pour le stockage?Les noeuds ont été créés à partir de l'AMI Aerospike serifié sur EC2 – ArpitW

+0

Hi Meher J'ai ajouté quelques observations à mon article d'origine, ce qui est intéressant à noter. Ce sont les statistiques du log des périphériques sur 2 nœuds – ArpitW