我对以下内在函数/指令的性能感兴趣:

  • _mm256_andnot_si256/vpandn
  • _mm256_and_si256/vpand
  • _mm256_cmpgt_epi32/vpcmpgtd
  • 和其他一些。

  • 但是不幸的是,Intel Intrinsics Guide不包含带有这些内在函数/指令的延迟和吞吐量数字的表。在哪里可以找到此信息?

    最佳答案

    延迟和吞吐量数字的三个来源是:

  • InstlatX64
  • Agner Fog's Instruction tables
  • uops.info

  • InSTLatX64列出了许多不同形式的指令(内存和/或寄存器操作数,不同的操作数宽度等),但没有有关每个执行端口的μop数量的信息。对于性能优化,不仅要关注延迟和吞吐量数量,而且每个执行端口的这些μop也非常重要。该信息由
    Agner Fog的说明表和uops.info。

    10-08 13:33