c++ - 为什么std::inner_product比天真的实现慢？

这是我对点积的幼稚实现:

float simple_dot(int N, float *A, float *B) {
    float dot = 0;
    for(int i = 0; i < N; ++i) {
    dot += A[i] * B[i];
    }

    return dot;
}

这是使用C++库的:

float library_dot(int N, float *A, float *B) {
    return std::inner_product(A, A+N, B, 0);
}

我运行了一些基准测试(代码在这里https://github.com/ijklr/sse)，并且库版本要慢很多。
我的编译器标志是-Ofast -march=native

最佳答案

您的两个函数做的不一样。该算法使用一个累加器，该累加器的类型是从初始值推导的，在您的情况下(0)是int。将浮点数累加到一个int中不仅会比将其累加到一个浮点中花费更多的时间，而且还会产生不同的结果。

原始循环代码的等效项是使用初始值0.0f或等效的float{}。

(请注意，std::accumulate在这方面非常相似。)

关于c++ - 为什么std::inner_product比天真的实现慢？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/43079506/