je fais une recherche sur gpu dans des environnements de cluster à l'aide mpi pour communiquer.
Afin de comparer accélérer, je pense à créer:matrice en utilisant CUDA + Multiplication MPI
Une multiplication de matrice juste pour GPU, ok.
Maintenant, juste CPU MatrixMulti, ok.
Mais je ne peux pas trouver une bonne implémentation de la multiplication de la matrice CUDA + MPI.
Quelqu'un a quelques indices sur l'endroit où je peux nageoire cela? Ou suggérer une implémentation.
Mon env avec mpich2 est prêt à l'emploi, donc je préférerais que OpenMP – Custodio