java - 在比较Java与C++的速度时，应该使用-O3或-O2编译C++代码吗？

我正在用Java和C++编写各种等效程序，以比较两种语言的速度。这些程序在循环中进行大量的数学计算。

有趣的是，当我使用-O3时，我发现C++击败了Java。当我使用-O2时，Java胜过C++。

我应该使用哪种g++编译器优化来得出我的比较结论？

我知道这并不像听起来那样简单，但是我想对Java和C++之间的延迟/速度比较有一些见解。

最佳答案

-O3在微基准测试中肯定会胜过-O2，但是当您对更实际的应用程序(例如FIX引擎)进行基准测试时，您会发现-O2在性能方面胜过-O3。

据我所知，-O3在编译小型和数学代码方面做得很好，但是对于更现实和大型的应用程序，它实际上可能比-O2慢。通过尝试积极优化所有内容(即内联，向量化等)，编译器将产生巨大的二进制文件，从而导致CPU缓存未命中(特别是指令缓存未命中)。这是Hotspot JIT选择不优化大型方法和/或非热点方法的原因之一。

需要注意的重要一件事是，JIT使用方法作为有资格进行优化的独立单元。在your previous questions中，您具有以下代码:

int iterations = stoi(argv[1]);
int load = stoi(argv[2]);

long long x = 0;

for(int i = 0; i < iterations; i++) {

    long start = get_nano_ts(); // START clock

    for(int j = 0; j < load; j++) {
        if (i % 4 == 0) {
            x += (i % 4) * (i % 8);
        } else {
            x -= (i % 16) * (i % 32);
        }
    }

    long end = get_nano_ts(); // STOP clock

    // (omitted for clarity)
}

cout << "My result: " << x << endl;

但是此代码对JIT不友好，因为该热代码段不在其自己的方法中。为了获得更大的JIT yield ，您应该使用自己的方法将代码块放入循环内。 您的方法执行热代码块，而不是热方法。包含for循环的方法可能仅被调用一次，因此JIT对此不会做任何事情。

好吧，如果您将-O3用于微基准测试，您将获得惊人的快速结果，这对于大型和更复杂的应用程序将是不现实的。这就是为什么我认为法官使用-O2而不是-O3的原因。例如，our garbage-free Java FIX engine比C++ FIX引擎快，我不知道它们是使用-O0，-O1，-O2，-O3还是通过可执行链接将它们混合使用。

从理论上讲，一个人可以有选择地将整个C++应用程序划分为可执行文件，选择哪些将使用-O2进行编译，哪些将使用-O3进行编译。然后将所有内容链接到理想的二进制可执行文件中。但是实际上，这有多可行？

热点选择的方法要简单得多。它说:

听着，我将每种方法视为独立的执行单元，而不是任何地方的任何代码块。如果该方法足够热(即经常调用)并且足够小，我将尝试积极优化它。

当然，这具有需要代码预热的缺点，但是它要简单得多，并且在大多数情况下对于实际/大型/复杂的应用程序会产生最佳结果。

最后但并非最不重要的一点是，如果您想使用-O3编译整个应用程序，则应该考虑这个问题:

关于java - 在比较Java与C++的速度时，应该使用-O3或-O2编译C++代码吗？，我们在Stack Overflow上找到一个类似的问题：https://stackoverflow.com/questions/31227983/