我正在构建一个CUDA内核,以使用有限差分来计算函数的数字N*N jacobian。在我提供的示例中,它是平方函数(向量的每个项都是平方的)。编码的主机在线性内存中分配,而我在内核中使用二维索引。

我的问题是,我还没有找到一种对矩阵cudaMalloc'ed的对角求和的方法。我的尝试是使用语句threadIdx.x == blockIdx.x作为对角线的条件,但相反,它只在true上对它们的求值结果为0

这是内核和编辑:我根据注释中的建议将整个代码发布为答案(main()基本相同,而内核不是)

template <typename T>
__global__ void jacobian_kernel (
                T * J,
                const T t0,
                const T tn,
                const T h,
                const T * u0,
                const T * un,
                const T * un_old)
{
    T cgamma = 2 - sqrtf(2);
    const unsigned int t = threadIdx.x;
    const unsigned int b = blockIdx.x;
    const unsigned int tid = t + b * blockDim.x;
    /*__shared__*/ T temp_sx[BLOCK_SIZE][BLOCK_SIZE];
    /*__shared__*/ T temp_dx[BLOCK_SIZE][BLOCK_SIZE];
    __shared__ T sm_temp_du[BLOCK_SIZE];

    T* temp_du = &sm_temp_du[0];

    if (tid < N )
    {
        temp_sx[b][t] = un[t];
        temp_dx[b][t] = un[t];

        if ( t == b )
        {
            if ( tn == t0 )
            {
                temp_du[t] = u0[t]*0.001;

                temp_sx[b][t] += temp_du[t]; //(*)
                temp_dx[b][t] -= temp_du[t];

                temp_sx[b][t] += ( abs( temp_sx[b][t] ) < 10e-6 ? 0.1 : 0 );
                temp_dx[b][t] += ( abs( temp_dx[b][t] ) < 10e-6 ? 0.1 : 0 );

                temp_sx[b][t] = ( temp_sx[b][t] == 0 ? 0.1 : temp_sx[b][t] );
                temp_dx[b][t] = ( temp_dx[b][t] == 0 ? 0.1 : temp_dx[b][t] );

            }

            else
            {
                temp_du[t] = MAX( un[t] - un_old[t], 10e-6 );
                temp_sx[b][t] += temp_du[t];
                temp_dx[b][t] -= temp_du[t];
            }
        }
        __syncthreads();

        //J = f(tn, un + du)
        d_func(tn, (temp_sx[b]), (temp_sx[b]), 1.f);
        d_func(tn, (temp_dx[b]), (temp_dx[b]), 1.f);

        __syncthreads();
        J[tid] = (temp_sx[b][t] - temp_dx[b][t]) * powf((2 * temp_du[t]), -1);

        //J[tid]*= - h*cgamma/2;
        //J[tid]+= ( t == b ? 1 : 0);
        //J[tid] = temp_J[tid];
    }
}

计算jacobian的一般过程是
  • un复制到temp_sxtemp_dx的每一行中
  • du
  • 计算0.01作为u0大小
  • du加到temp_sx的对角线,从du的对角线减去temp_dx
  • temp_sxtemp_dx的每个条目上计算平方函数
  • 减去它们,然后将每个条目除以2*du

  • 该过程可以用(f(un + du*e_i) - f(un - du*e_i))/2*du概括。

    我的问题是像在du中尝试的那样,将temp_sx加到temp_dx(*)的矩阵的对角线上。我该如何实现?

    编辑:现在调用1D块和线程;实际上,在内核中根本没有使用.y轴。我正在使用固定数量的共享内存来调用内核

    请注意,在int main()中,我使用
    #define REAL sizeof(float)
    #define N 32
    #define BLOCK_SIZE 16
    #define NUM_BLOCKS ((N*N + BLOCK_SIZE - 1)/ BLOCK_SIZE)
    ...
    dim3 dimGrid(NUM_BLOCKS,);
    dim3 dimBlock(BLOCK_SIZE);
    size_t shm_size = N*N*REAL;
    jacobian_kernel <<< dimGrid, dimBlock, size_t shm_size >>> (...);
    

    因此,我尝试处理对函数调用的块拆分。在内核中对角线求和,我使用了if(threadIdx.x == blockIdx.x){...}为什么这不正确? 我之所以这么问,是因为在调试并使代码打印语句时,如果它们都为0,则仅求true的值。因此du[0]是唯一的数值,并且矩阵变为nan。请注意,这种方法适用于我构建的第一个代码,而我在其中用
    jacobian_kernel <<< N, N >>> (...)
    

    这样,当threadIdx.x == blockIdx.x时,元素在对角线上。但是,这种方法不再适合了,因为现在我需要处理更大的N(可能大于1024,这是每个块的最大线程数)。

    即使将矩阵拆分为块和线程,我也应该在其中放置什么语句?

    让我知道是否应该分享其他信息。

    最佳答案

    根据答案评论中的建议,这是我设法解决问题的方法。如果您将helper_cuda.hhelper_string.h放在同一目录中,或者将-I指令添加到与CUDA工具包一起安装的CUDA示例包含路径中,则该示例是可编译的。相关更改仅在内核中;不过,由于我调用了两倍的资源来执行内核,因此main()进行了微小的更改,但是甚至根本没有使用线程块网格的.y轴,因此它不会产生任何错误。

    #include <stdio.h>
    #include <stdlib.h>
    #include <iostream>
    #include <math.h>
    #include <assert.h>
    
    #include <cuda.h>
    #include <cuda_runtime.h>
    #include "helper_cuda.h"
    #include "helper_string.h"
    #include <fstream>
    
    #ifndef MAX
        #define MAX(a,b) ((a > b) ? a : b)
    #endif
    #define REAL sizeof(float)
    #define N       128
    #define BLOCK_SIZE  128
    #define NUM_BLOCKS  ((N*N + BLOCK_SIZE - 1)/ BLOCK_SIZE)
    
    template <typename T>
    inline void printmatrix( T mat, int rows, int cols);
    template <typename T>
    __global__ void jacobian_kernel ( const T * A, T * J, const T t0, const T tn, const T h, const T * u0, const T * un, const T * un_old);
    template<typename T>
    __device__ void d_func(const T t, const T u[], T res[], const T h = 1);
    template<typename T>
    
    int main ()
    {
        float t0    = 0.; //float tn = 0.;
        float h     = 0.1;
    
        float* u0 = (float*)malloc(REAL*N); for(int i = 0; i < N; ++i){u0[i] = i+1;}
        float* un = (float*)malloc(REAL*N); memcpy(un, u0, REAL*N);
        float* un_old = (float*)malloc(REAL*N); memcpy(un_old, u0, REAL*N);
        float* J = (float*)malloc(REAL*N*N);
        float* A = (float*)malloc(REAL*N*N); host_heat_matrix(A);
    
        float *d_u0;
        float *d_un;
        float *d_un_old;
        float *d_J;
        float *d_A;
    
        checkCudaErrors(cudaMalloc((void**)&d_u0,   REAL*N)); //printf("1: %p\n", d_u0);
        checkCudaErrors(cudaMalloc((void**)&d_un,   REAL*N)); //printf("2: %p\n", d_un);
        checkCudaErrors(cudaMalloc((void**)&d_un_old,   REAL*N)); //printf("3: %p\n", d_un_old);
        checkCudaErrors(cudaMalloc((void**)&d_J,    REAL*N*N)); //printf("4: %p\n", d_J);
        checkCudaErrors(cudaMalloc((void**)&d_A,    REAL*N*N)); //printf("4: %p\n", d_J);
        checkCudaErrors(cudaMemcpy(d_u0, u0,        REAL*N, cudaMemcpyHostToDevice)); assert(d_u0 != NULL);
        checkCudaErrors(cudaMemcpy(d_un, un,        REAL*N, cudaMemcpyHostToDevice)); assert(d_un != NULL);
        checkCudaErrors(cudaMemcpy(d_un_old, un_old,    REAL*N, cudaMemcpyHostToDevice)); assert(d_un_old != NULL);
        checkCudaErrors(cudaMemcpy(d_J, J,      REAL*N*N, cudaMemcpyHostToDevice)); assert(d_J != NULL);
        checkCudaErrors(cudaMemcpy(d_A, A, REAL*N*N, cudaMemcpyHostToDevice)); assert(d_A != NULL);
    
        dim3 dimGrid(NUM_BLOCKS); std::cout << "NUM_BLOCKS \t" << dimGrid.x << "\n";
        dim3 dimBlock(BLOCK_SIZE); std::cout << "BLOCK_SIZE \t" << dimBlock.x << "\n";
        size_t shm_size = N*REAL; //std::cout << shm_size << "\n";
    
        //HERE IS A RELEVANT CHANGE OF THE MAIN, SINCE I WAS CALLING
        //THE KERNEL WITH A 2D GRID BUT WITHOUT USING THE .y AXIS,
        //WHILE NOW THE GRID IS 1D
        jacobian_kernel <<< dimGrid, dimBlock, shm_size >>> (d_A, d_J, t0, t0, h, d_u0, d_un, d_un_old);
    
        checkCudaErrors(cudaMemcpy(J, d_J, REAL*N*N, cudaMemcpyDeviceToHost)); //printf("4: %p\n", d_J);
    
        printmatrix( J, N, N);
    
        checkCudaErrors(cudaDeviceReset());
        free(u0);
        free(un);
        free(un_old);
        free(J);
    
    }
    
    template <typename T>
    __global__ void jacobian_kernel (
                                const T * A,
                                T * J,
                                const T t0,
                                const T tn,
                                const T h,
                                const T * u0,
                                const T * un,
                                const T * un_old)
    {
        T cgamma = 2 - sqrtf(2);
        const unsigned int t = threadIdx.x;
        const unsigned int b = blockIdx.x;
        const unsigned int tid = t + b * blockDim.x;
        /*__shared__*/ T temp_sx[BLOCK_SIZE][BLOCK_SIZE];
        /*__shared__*/ T temp_dx[BLOCK_SIZE][BLOCK_SIZE];
        __shared__ T sm_temp_du;
        T* temp_du = &sm_temp_du;
    
        //HERE IS A RELEVANT CHANGE (*)
        if ( t < BLOCK_SIZE && b < NUM_BLOCKS )
        {
            temp_sx[b][t] = un[t]; //printf("temp_sx[%d] = %f\n", t,(temp_sx[b][t]));
            temp_dx[b][t] = un[t];
            //printf("t = %d, b = %d, t + b * blockDim.x = %d \n",t, b, tid);
    
            //HERE IS A NOTE (**)
            if ( t == b )
            {
                //printf("t = %d, b = %d \n",t, b);
                if ( tn == t0 )
                {
                    *temp_du = u0[t]*0.001;
    
                    temp_sx[b][t] += *temp_du;
                    temp_dx[b][t] -= *temp_du;
    
                    temp_sx[b][t] += ( abs( temp_sx[b][t] ) < 10e-6 ? 0.1 : 0 );
                    temp_dx[b][t] += ( abs( temp_dx[b][t] ) < 10e-6 ? 0.1 : 0 );
    
                    temp_sx[b][t] = ( temp_sx[b][t] == 0 ? 0.1 : temp_sx[b][t] );
                    temp_dx[b][t] = ( temp_dx[b][t] == 0 ? 0.1 : temp_dx[b][t] );
    
                }
    
                else
                {
                    *temp_du = MAX( un[t] - un_old[t], 10e-6 );
                    temp_sx[b][t] += *temp_du;
                    temp_dx[b][t] -= *temp_du;
                }
            ;
            }
    //printf("du[%d] %f\n", tid, (*temp_du));
            __syncthreads();
            //printf("temp_sx[%d][%d] = %f\n", b, t, temp_sx[b][t]);
            //printf("temp_dx[%d][%d] = %f\n", b, t, temp_dx[b][t]);
    
            //d_func(tn, (temp_sx[b]), (temp_sx[b]), 1.f);
            //d_func(tn, (temp_dx[b]), (temp_dx[b]), 1.f);
            matvec_dev( tn, A, (temp_sx[b]), (temp_sx[b]), N, N, 1.f );
            matvec_dev( tn, A, (temp_dx[b]), (temp_dx[b]), N, N, 1.f );
            __syncthreads();
            //printf("temp_sx_later[%d][%d] = %f\n", b, t, (temp_sx[b][t]));
            //printf("temp_sx_later[%d][%d] - temp_dx_later[%d][%d] = %f\n", b,t,b,t, (temp_sx[b][t] - temp_dx[b][t]) / 2 * *temp_du);
            //if (t == b ) printf( "2du[%d]^-1 = %f\n",t, powf((2 * *temp_du), -1));
            J[tid] = (temp_sx[b][t] - temp_dx[b][t]) / (2 * *temp_du);
        }
    }
    
    template<typename T>
    __device__ void d_func(const T t, const T u[], T res[], const T h )
    {
        __shared__ float temp_u;
        temp_u = u[threadIdx.x];
        res[threadIdx.x] = h*powf( (temp_u), 2);
    }
    
    template <typename T>
    inline void printmatrix( T mat, int rows, int cols)
    {
        std::ofstream matrix_out;
        matrix_out.open( "heat_matrix.txt", std::ofstream::out);
        for( int i = 0; i < rows; i++)
        {
            for( int j = 0;  j <cols; j++)
            {
                double next = mat[i + N*j];
                matrix_out << ( (next >= 0) ? " " : "") << next << " ";
            }
            matrix_out << "\n";
        }
    }
    

    相关更改在(*)上。在我使用if (tid < N)之前,它有两个缺点:
  • 首先,这是错误的,因为它应该是tid < N*N,因为我的数据是2D的,而tid是跟踪所有数据的全局索引。
  • 即使我写了tid < N*N,由于我将函数调用分成多个块,因此t < BLOCK_SIZE && b < NUM_BLOCKS在代码中如何安排索引对我来说似乎更清晰。

  • 此外,t == b 中的(**)语句实际上是对矩阵的对角元素进行运算的正确语句。仅在true上评估0的事实是由于我上面的错误。

    感谢您的建议!

    关于matrix - 在CUDA中处理矩阵: understanding basic concepts,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/41764331/

    10-12 23:14