Y aurait-il une différence de performance pour CUDA blocksize 1024x1 vs 32x32?

Comment ces deux tailles de blocs (1024x1 vs 32x32) sont-elles censées fonctionner à partir de la planification des threads et de la perspective de bande passante mémoire? Y a-t-il une différence de performance attendue de ces 2 tailles de blocs? Notez que les deux utilisent 1024 threads par bloc.Y aurait-il une différence de performance pour CUDA blocksize 1024x1 vs 32x32?

Source

2014-05-12 FundamentalAxiom

Le nombre d'opérations ALU associées à l'indexation peut avoir un impact sur les performances, mais il s'agit souvent d'un pourcentage mineur du total des instructions exécutées. Ecrivez le code dans les deux sens et différez l'assemblage. –

Les dimensions des blocs de threads, en particulier lorsque nous parlons du même nombre de threads par bloc, n'affectent pas les performances.

Les fils sont toujours grouped for execution into warps. Le seul effet direct des cotes threadblock est de changer les variables intégrées par ex. threadIdx.x, blockIdx.x, etc. qui sont transmis à chaque thread, ce qui n'est pas un problème de performance.

Source

2014-05-12 22:45:32

Cela a du sens. Merci pour la perspicacité! – FundamentalAxiom

Y aurait-il une différence de performance pour CUDA blocksize 1024x1 vs 32x32?

Répondre

Questions connexes