Il est possible d'étendre un noyau OpenCL pour l'exécuter simultanément sur le processeur et le GPU.

Supposons que j'ai un ordinateur équipé d'un processeur multicœur et d'un GPU. Je voudrais écrire un programme OpenCL qui fonctionne sur tous les cœurs de la plateforme. Est-ce possible ou dois-je choisir un seul périphérique sur lequel exécuter le noyau?Il est possible d'étendre un noyau OpenCL pour l'exécuter simultanément sur le processeur et le GPU.

Source

2010-07-14 lhahne

En théorie oui, vous pouvez, l'API CL permet. Mais la plate-forme/implémentation doit le supporter, et je ne pense pas que la plupart des implémentations de CL le font. Pour ce faire, procurez-vous le cl_device_id de l'unité centrale et du périphérique GPU, et créez un contexte avec ces deux périphériques, en utilisant clCreateContext.

Source

2010-07-14 15:15:20

Ou, sur les systèmes qui ne prennent pas en charge deux appareils dans une plate-forme, mais le processeur a une plate-forme et le GPU a une autre plate-forme, vous pouvez simplement diviser manuellement le travail entre les deux. Envoyez une partie du travail à la CPU et une partie du travail au GPU. –

Non, vous ne pouvez pas répartir automagiquement un noyau à la fois sur le processeur et le GPU, c'est l'un ou l'autre.

Vous pouvez le faire mais cela impliquera de créer et de gérer manuellement deux files d'attente de commandes (une pour chaque périphérique).

Voir ce fil: http://devforums.amd.com/devforum/messageview.cfm?catid=390&threadid=124591&messid=1072238&parentid=0&FTVAR_FORUMVIEWTMP=Single

Source

2010-07-14 14:28:14 Stringer

Vous ne pouvez pas étendre un noyau à plusieurs périphériques. Mais si le code que vous utilisez n'est pas dépendant d'autres résultats (par exemple: traiter des blocs de 16 Ko de données, cela nécessite un traitement énorme), vous pouvez lancer le même noyau sur GPU et CPU. Et mettre des blocs sur le GPU et certains sur le CPU.

De cette façon, il devrait augmenter les performances.

Vous pouvez le faire en créant un clContext partagé pour le processeur et le GPU et 2 files d'attente de commandes.

Ceci n'est pas applicable à tous les noyaux. Parfois, le code du noyau s'applique à toutes les données d'entrée et ne peut pas être séparé en parties ou en morceaux.

Source

2011-05-06 12:45:18 DarkZeros

La mise en file d'attente des éléments de travail massifs est une mauvaise pratique. La raison en est que vous provoquerez la famine de workitem de rendu (provoquant des mises à jour d'écran léthargiques écoeurantes), ou pire, il y a un chien de garde qui avortera et rechargera le conducteur visuel (déclenchera la détection d'accrochage). Une pratique beaucoup mieux (quand c'est possible bien sûr) est d'avoir un flux de travail, mais n'obtient pas les résultats des éléments avant plusieurs après avoir été mis en file d'attente pour l'exécution. Cela vous permet de limiter l'utilisation du GPU pour ne pas surcharger le travail de dessin à l'écran. – doug65536

Un contexte ne peut être que pour une plate-forme. Si votre code multi-périphérique doit fonctionner sur plusieurs plates-formes (par exemple, plate-forme Intel OpenCL et NVidia GPU), vous avez besoin de contextes distincts. Cependant, si le GPU et le CPU se trouvent sur la même plate-forme, alors oui, vous pouvez utiliser un contexte.

Si vous utilisez plusieurs périphériques sur la même plate-forme (deux GPU identiques ou deux GPU du même fabricant), vous pouvez partager le contexte, à condition qu'ils proviennent tous deux d'un seul appel clGetDeviceIDs.

EDIT: Je dois ajouter qu'un contexte GPU + CPU ne signifie pas une exécution CPU + GPU gérée automatiquement. Généralement, il est recommandé de laisser le pilote allouer un tampon mémoire pouvant être mis en mémoire DMA par le GPU pour des performances maximales. Dans le cas où vous avez le processeur et le GPU dans le même contexte, vous seriez en mesure de partager ces tampons entre les deux appareils.

Vous devez encore diviser la charge de travail vous-même. Ma technique d'équilibrage de charge préférée utilise des événements. Chaque élément de travail n, attachez un objet événement à une commande (ou mettez en file d'attente un marqueur) et attendez l'événement que vous avez défini il y a des éléments de travail (le précédent). Si vous n'aviez pas à attendre, vous devez augmenter n sur cet appareil, si vous deviez attendre, vous devriez diminuer n. Cela limitera la profondeur de la file d'attente, n planera autour de la profondeur parfaite pour garder l'appareil occupé. Vous devez le faire de toute façon pour éviter de provoquer la famine du rendu GUI. Il suffit de garder n commandes dans chaque file d'attente de commande (où le CPU et le GPU ont n séparé) et il se divisera parfaitement.

Source

2012-03-14 11:20:32 doug65536

Il est possible d'étendre un noyau OpenCL pour l'exécuter simultanément sur le processeur et le GPU.

Répondre

Questions connexes