2017-07-03 2 views
0

Je fais un simple programme abput un vecteur additionneur et je veux tester le temps d'exécution par rapport au groupe. lorsque je change le groupe de 1024 à 5012 à 256 et à 128. Le temps d'exécution est très similaire. Pourquoi? à mon avis, quand j'utilise des groupes plus petits, nous devrions avoir plus de groupes et travailler dans les cœurs en parallèle ce qui pourrait réduire le temps d'exécution (par exemple, si le workgroupsize passe de 512 à 256, le temps d'exécution devrait diminuer) mais dans mon expérience en GPU, le temps d'exécution est siilar? Mon point de vue est-il faux?groupesize vs temps d'exécution?

Répondre

0

Parce que le nombre de work items par groupe n'est pas un goulot d'étranglement visible pour l'ajout de vecteurs. La performance de la mémoire globale ise bottleneck. Si les données proviennent de l'hôte, les performances PCI-E sont également goulot d'étranglement.