J'essaye d'accélérer mon code avec openacc avec le compilateur PGI 15.7.Puis-je profiler le noyau OpenACC au niveau du code source C?
Je souhaite profiler mon code au niveau de la source C. J'utilise le profileur 'nvvp' de CUDA 7.0 Lorsque j'exécute nvvp, je peux utiliser 'analyse tap' et obtenir quelle latence est la raison pour laquelle mon code ralentit. (Dépendance de données, branche conditionnelle et bande passante ... etc)
Mais, je n'ai pas pu obtenir d'analyse par ligne, mais seulement l'analyse de niveau 'noyau'. (par exemple, le noyau main_300_gpu utilisé 10s). J'ai donc du mal à savoir où dois-je réparer le code.
Existe-t-il un moyen de profiler mon code au niveau source?
J'utilise
PGI 15,7 (en utilisant pgcc)
CUDA 7.0
NVIDIA GTX 960
Ubuntu 14.04 LTS x86_64
[mon NVVP screenshots rapports]
Merci Mat. J'ai utilisé l'option -ta = tesla: lineinfo, afin que je puisse montrer mon code source avec NVVP. – soongk