En supposant qu'un bloc a une limite de 512 threads, disons que mon noyau a besoin de plus de 512 threads pour l'exécution, comment doit-on concevoir la hiérarchie des threads pour des performances optimales? (cas 1)Conception de hiérarchies de threads dans le noyau dans CUDA
1er bloc - 512 fils bloc 2e - fils restants
(cas 2) distribuer le même nombre de fils à travers certains blocs.
Si un noyau a besoin de 600 threads, la meilleure option consistera à allouer 300 threads dans 2 blocs. ou existe-t-il une option pour utiliser les 512 threads du 1er bloc et rester dans le 2ème bloc? –
Je pense que cela dépend du problème que vous essayez de résoudre. Pourriez-vous être un peu plus précis? – KLee1
aussi si mon noyau a besoin de 601 threads ou d'un nombre impair en tant que tel, comment devrait-on allouer les blocs? –