同步两个CUDA流

我使用CUDA流来启用异步数据传输并隐藏内存拷贝延迟。 我有2个CPU线程和2个CUDA流:一个是“数据”流,它基本上是由第一个CPU线程启动的一系列cudaMemcpyAsync调用,另一个是执行计算内核的“计算”流。 数据流正在为计算流准备批处理,因此对于计算流来说,确保流将要处理的批次完全加载到内存中至关重要。

我应该将CUDA事件用于这种同步还是其他一些机制?

更新 :让我澄清为什么我不能在每个流中使用具有数据副本/计算的单独流。 问题是批处理必须按顺序处理,我不能并行执行它们(当然,这可能会对多个流执行)。 但是,在处理每批时,我可以预先加载下一批的数据,从而隐藏数据传输。 用罗伯特的例子:

cudaMemcpyAsync( <data for batch1>, dataStream);
cudaMemcpyAsync( <data for batch2>, dataStream);
kernelForBatch1<<<..., opsStream>>>(...);
kernelForBatch2<<<..., opsStream>>>(...);

您当然可以使用cuda事件来同步流,例如使用cudaStreamWaitEvent API函数。 然而,将所有数据副本放在一个流中而将所有内核调用放在另一个流中的想法可能不是对流的合理使用。

在单个流内发出的cuda函数(API调用,内核调用)保证按顺序执行,并且该流中的任何cuda函数都不会开始,直到流中所有先前的cuda活动都已完成(即使您正在使用诸如cudaMemcpyAsync ...)

因此流已经为您提供了一种机制,以确保内核调用不会开始,直到复制必要的数据为止。 只需在数据复制后将该内核调用放入同一个流中即可。

像这样的东西应该照顾你的同步:

cudaMemcpyAsync( <data for kernel1>, stream1);
cudaMemcpyAsync( <data for kernel2>, stream2);
kernel1<<<..., stream1>>>(...);
kernel2<<<..., stream2>>>(...);
cudaMemcpyAsync( <data from kernel1>, stream1);
cudaMemcpyAsync( <data from kernel2>, stream2);

所有上述调用都是异步的,所以假设你已经满足了异步执行的其他要求(例如使用固定内存),所有上述调用都应该“排队”并立即返回。 但是,在发出给stream1的前面的cudaMemcpyAsync已经完成之前, kernel1保证不开始,同样对于kernel2kernel2的数据传输也是stream2

我没有看到任何理由将上述活动分解为单独的CPU线程。 这不必要地使事情复杂化。 管理单个设备的最麻烦的方法是来自单个CPU线程。

链接地址: http://www.djcxy.com/p/80109.html

上一篇: Synchronizing two CUDA streams

下一篇: CUDA streams and concurrent kernel execution