2016-02-19 3 views
2

Dans this une déclaration dans une réponse écrite que "même travail s'exécutant sur les mêmes données, mais sur un cluster de 20 nœuds, puis un cluster de 200 nœuds. Dans l'ensemble, la même quantité de temps CPU sera utilisé sur les deux clusters" ce ? J'ai utilisé la commande time pour mesurer le temps réel. Parfois, j'ai plus de temps CPU (compteur hadoop) que le temps réel réel ou vice versa. Je sais que le temps réel mesure le temps réel de l'horloge écoulé et il peut être supérieur ou inférieur à user+sys.Lequel dois-je utiliser pour les tâches de référence dans l'utilisateur hadoop + sys temps ou le temps total de CPU dépensé dans le compteur de travail hadoop?

Je ne comprends toujours pas ce que les temps totaux de cpu mesurent dans hadoop. En ce qui concerne la commande de temps this réponse écrite il est bon d'aller avec user + sys pour les repères.

  1. En tant que total cpu time taken by process = user+sys, il devrait alors être le même que le temps total de CPU du compteur de tâches hadoop. Mais je reçois des résultats différents.
  2. À quel moment devrais-je considérer si je fais un certain type de tâches de référence dans l'utilisateur hadoop + sys ou le temps total de CPU dépensé (compteur hadoop)?

Note: En référence apache hive ils ont considéré le temps réel mais cela peut affectés par d'autres processus aussi. Donc je ne peux pas considérer le temps réel.

Répondre

1

same job running over the same data but on one 20 node cluster, then a 200 node cluster.Overall, the same amount of CPU time will be used on both clusters

Cela signifie que si un travail prend N heures sur un cluster de 20 nœuds et M heures sur un cluster de 200 nœuds, alors 20 * N devrait être égale à M * 200

temps réel devrait être votre choix, mais comme indiqué ci-dessus, cette valeur peut changer en conséquence, vous devriez donc essayer au moins 3 fois, et calculer la moyenne comme résultat final.

+0

okay. Avez-vous une idée du premier point pour lequel le temps total de fonctionnement du compteur de tâches est différent de usr + sys? – Dhruv

+0

Je pense que usr + sys = mapreduce cpu time + cpu d'autres tâches de usr & sys comme l'allocation de mémoire ou l'accès au matériel etc suis-je raison? – Dhruv

+0

@Dhruv Absolument PAS. 'usr + sys' est le temps courant du processus client pas mapreduce framework –