我想使用SSE内部函数来翻译这段代码。

for (uint32_t i = 0; i < length; i += 4, src += 4, dest += 4)
{
    uint32_t value = *(uint32_t*)src;
    *(uint32_t*)dest = ((value >> 16) & 0xFFFF) | (value << 16);
}

是否有人知道执行16位字交换的内在机制?

最佳答案

pshufb(SSSE3)应快于2个班次和或。此外,稍微修改shuffle掩码将启用尾数转换,而不仅仅是单词交换。
窃取Paul R的函数结构,只需替换向量内函数:

void word_swapping_ssse3(uint32_t* dest, const uint32_t* src, size_t count)
{
    size_t i;
    __m128i shufmask =  _mm_set_epi8(13,12, 15,14,  9,8, 11,10,  5,4, 7,6,  1,0, 3,2);
    // _mm_set args go in big-endian order for some reason.

    for (i = 0; i + 4 <= count; i += 4)
    {
        __m128i s = _mm_loadu_si128((__m128i*)&src[i]);
        __m128i d = _mm_shuffle_epi8(s, shufmask);
        _mm_storeu_si128((__m128i*)&dest[i], d);
    }
    for ( ; i < count; ++i) // handle residual elements
    {
        uint32_t w = src[i];
        w = (w >> 16) | (w << 16);
        dest[i] = w;
    }
}

pshufb可以有一个内存操作数,但它必须是洗牌掩码,而不是要洗牌的数据。所以你不能把它当作洗牌货。:/
gcc不会为循环生成很好的代码。主回路是
# src: r8.  dest: rcx.  count: rax.  shufmask: xmm1
.L16:
        movq    %r9, %rax
.L3:  # first-iteration entry point
        movdqu  (%r8), %xmm0
        leaq    4(%rax), %r9
        addq    $16, %r8
        addq    $16, %rcx
        pshufb  %xmm1, %xmm0
        movups  %xmm0, -16(%rcx)
        cmpq    %rdx, %r9
        jbe     .L16

由于所有的循环开销,并且需要单独的加载和存储指令,吞吐量将仅为每2个周期1次洗牌。(8个UOP,因为cmp宏与jbe融合)。
更快的循环是
  shl $2, %rax  # uint count  ->  byte count
  # check for %rax less than 16 and skip the vector loop
  # cmp / jsomething
  add %rax, %r8  # set up pointers to the end of the array
  add %rax, %rcx
  neg %rax       # and count upwards toward zero
.loop:
  movdqu (%r8, %rax), %xmm0
  pshufb  %xmm1, %xmm0
  movups  %xmm0, (%rcx, %rax)  # IDK why gcc chooses movups for stores.  Shorter encoding?
  add $16, %rax
  jl .loop
  # ...
  # scalar cleanup

movdqu与向量运算不同,负载可以用复杂的寻址模式进行微熔合,所以我相信除了存储之外,所有这些指令都是单uop。
由于add可以与jl微熔合,因此每次迭代运行一个周期,并进行一些展开。所以这个循环总共有5个UOP。其中3个是具有专用端口的加载/存储操作。瓶颈是:pshufb只能在一个执行端口上运行(Haswell(SnB/IvB可以在端口1和5上pshufb)。每个周期一个存储(所有微阵列)。最后,Intel CPU的每个时钟限制有4个融合域uop,在Nehalem和更高版本(uop循环缓冲区)上的缓存未命中情况下应该是可访问的。
展开将使每16B的融合域UOP总数降到4以下。递增指针,而不是使用复杂的寻址模式,将让存储微融合。(减少循环开销总是很好的:让重新排序的缓冲区充满未来的迭代意味着当CPU在循环结束时遇到预测失误并返回到其他代码时,它有一些事情要做。)
正如Elalfer正确地建议的那样,这几乎就是通过展开intrinsics循环得到的结果。使用gcc时,如果代码不会过多膨胀,请尝试-funroll-loops
顺便说一下,在加载或存储时进行字节交换(与其他代码混合)可能会更好,而不是将缓冲区转换为单独的操作。

关于c - SSE字节和半字交换,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/31203907/

10-11 16:57