Dans this une déclaration dans une réponse écrite que "même travail s'exécutant sur les mêmes données, mais sur un cluster de 20 nœuds, puis un cluster de 200 nœuds. Dans l'ensemble, la même quantité de temps CPU sera utilisé sur les deux clusters" ce ? J'ai utilisé la commande time
pour mesurer le temps réel. Parfois, j'ai plus de temps CPU (compteur hadoop) que le temps réel réel ou vice versa. Je sais que le temps réel mesure le temps réel de l'horloge écoulé et il peut être supérieur ou inférieur à user+sys
.Lequel dois-je utiliser pour les tâches de référence dans l'utilisateur hadoop + sys temps ou le temps total de CPU dépensé dans le compteur de travail hadoop?
Je ne comprends toujours pas ce que les temps totaux de cpu mesurent dans hadoop. En ce qui concerne la commande de temps this réponse écrite il est bon d'aller avec user + sys pour les repères.
- En tant que
total cpu time taken by process = user+sys
, il devrait alors être le même que le temps total de CPU du compteur de tâches hadoop. Mais je reçois des résultats différents. - À quel moment devrais-je considérer si je fais un certain type de tâches de référence dans l'utilisateur hadoop + sys ou le temps total de CPU dépensé (compteur hadoop)?
Note: En référence apache hive ils ont considéré le temps réel mais cela peut affectés par d'autres processus aussi. Donc je ne peux pas considérer le temps réel.
okay. Avez-vous une idée du premier point pour lequel le temps total de fonctionnement du compteur de tâches est différent de usr + sys? – Dhruv
Je pense que usr + sys = mapreduce cpu time + cpu d'autres tâches de usr & sys comme l'allocation de mémoire ou l'accès au matériel etc suis-je raison? – Dhruv
@Dhruv Absolument PAS. 'usr + sys' est le temps courant du processus client pas mapreduce framework –