主机处理器和协处理器之间有什么区别?特别是至强融核协处理器和至强融核主机处理器?

我在这些机器上有一些性能结果(正在运行扩散方程的并行OpenMP代码),这表明在相同数量的线程正在工作时,主机处理器的运行速度要快得多。我想知道差异并将它们与我的结果联系起来。

最佳答案

只是要重申Jeff在评论中所说的,您有一个Xeon主机和一个附加的Xeon Phi协处理器。当前一代的Xeon Phi(骑士之角)仅可作为协处理器使用,而不能作为独立的Xeon Phi主机(后者应随Knight's Landing一起提供)。

当您运行程序而不从主机Xeon卸载时,从this website看来,您最多可以运行16个线程。请注意,每个内核的速度约为2.2 GHz。

当您在Xeon Phi协处理器上以本机执行模式运行程序时,应该可以使用更多线程运行。使用的最佳线程数取决于您拥有的the model of Xeon Phi(某些使用56时效果最佳,其他使用60时效果最佳)。但请注意,每个至强融核核心(约1.2 GHz)明显比单个至强核(约2.2 GHz)要弱。多核Xeon Phi技术的好处就在于:您可以跨许多核运行。

要考虑的最后一个非常重要的事情是,至强融核拥有512位宽的SIMD指令集。因此,与在主机上相比,您可以支持在至强融核协处理器上运行的更好的SIMD矢量化。就您而言,我相信您的Xeon主机只有一个256位SIMD矢量处理单元。因此,如果您还没有,则可以利用SIMD矢量化技术在Xeon Phi上提高性能(如果要处理单精度,则可以提高到x16)。您的Xeon主机最多只能放弃x8性能。刚开始使用Google迷航时,OpenMP 4.0允许您编写#pragma omp simd之类的内容,以告诉编译器何时在整个代码中向量化较低级的循环。如果您确实希望Xeon Phi发挥最高性能,则必须添加SIMD矢量化。

因此,直接回答您的问题:使用相同数量的内核比较Xeon主机和Xeon Phi协处理器之间的性能结果是没有用的。我们已经知道每个Xeon Phi内核都比每个Xeon内核慢。如果要直接比较,则应该使用每个允许的最大核数(分别为60和16)比较结果,并充分利用向量处理单元的优势。

08-28 07:31