disons que je veux charger un tableau de court de mémoire globale à la mémoire partagée. Je ne suis pas sûr de savoir comment fonctionne la coalescence ici. Dans le guide des meilleures pratiques, il est indiqué que sur le dispositif de capacité de calcul 1.0 ou 1.1, le kième filet d'une demi-chaîne doit accéder au k-ième mot dans un segment aligné sur 16 fois la taille des éléments accédés.coalesced lire short integer cuda
Si je comprends bien, dans le cas où je casse mes données en segments de 32 octets (16 courts métrages), l'identifiant de thread 0, 16, 32 ... doit accéder au premier élément de chaque segment? dois-je considérer l'alignement de 64 octets ou l'alignement de 128 octets aussi? J'ai un GS 250, donc je suppose que c'est important. Les conseils sont les bienvenus. Merci.