Quelle est la meilleure façon d'organiser les opérations matricielles dans CUDA (en termes de performance)? Par exemple, je veux calculer C * C^(-1) * B^T + C
, C
et B
sont des matrices.Opérations matricielles dans CUDA
Dois-je écrire des fonctions séparées pour la multiplication, la transposition et ainsi de suite ou écrire une fonction pour l'expression entière?
Quelle est la méthode la plus rapide?
Juste un indice: Pour la multiplication, il existe une sorte d'algorithmes appelés "Dynamic Programming", dans le MIT Introduction to Algorithms, un exemple de ces algorithmes est comment choisir l'ordre le plus rapide pour multiplier plusieurs matrices. –