以上函数如何在cuda中执行操作。我们是否需要与此同时编写CudaMalloc()或MemCopy(),还是只需要内部调用就可以完成所有这一切。

我写

nppiResizeSqrPixel_32f_C4R(&in[0],sizeofImage,StepSize,&out[0],StepSizeOutput,DestRoi,Xfactor,YFactor,NULL,NULL,16);


这里'in'是具有输入图像的向量,而'out'是空向量。但是执行完上述功能后,输出向量仍为'0'。您能否指导我调整函数的大小。

最佳答案

它对设备数据进行操作,因此您将需要使用设备分配(例如cudaMalloc)并将数据复制到设备(例如cudaMemcpy)等。

usual place上提供了一些有关npp调用的文档,并且有CUDA sample codes演示了一些npp库调用利用率的示例。

对于那些资源未解决的问题,您可能还需要查看intel ipp文档。在许多情况下,npp例程都非常类似于英特尔ipp功能,因此您可以在那里获得一些见识。 Here是示例文档。

还要检查任何适当的CUDA或npp调用的返回值,还可以使用cuda-memcheck运行代码以获取有关可能出问题的提示。

10-08 03:54