我想在 ARMv7 内核上复制图像。最简单的实现是每行调用 memcpy。

for(i = 0; i < h; i++) {
  memcpy(d, s, w);
  s += sp;
  d += dp;
}

我知道以下
d, dp, s, sp, w

都是 32 字节对齐的,所以我的下一个(仍然很幼稚)实现是沿着
for (int i = 0; i < h; i++) {
  uint8_t* dst = d;
  const uint8_t* src = s;
  int remaining = w;
  asm volatile (
    "1:                                               \n"
    "subs     %[rem], %[rem], #32                     \n"
    "vld1.u8  {d0, d1, d2, d3}, [%[src],:256]!        \n"
    "vst1.u8  {d0, d1, d2, d3}, [%[dst],:256]!        \n"
    "bgt      1b                                      \n"
    : [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining)
    :
    : "d0", "d1", "d2", "d3", "cc", "memory"
  );
  d += dp;
  s += sp;
}

在大量迭代中比 memcpy 快约 150%(在不同的图像上,因此没有利用缓存)。我觉得这应该离最佳状态还差得很远,因为我还没有使用预加载,但是当我使用预加载时,我似乎只能使性能变得更糟。有没有人在这里有任何见解?

最佳答案

ARM 对此有很好的技术说明。

http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.faqs/ka13544.html

你的表现肯定会因微架构而异,ARM 的说明是在 A8 上,但我认为它会给你一个不错的主意,底部的总结是对各种优缺点的精彩讨论,不仅仅是常规数字,例如哪些方法导致最少的寄存器使用量等。

是的,正如另一位评论者所提到的,预取很难正确进行,并且在不同的微架构下会以不同的方式工作,具体取决于缓存的大小和每行的大小以及有关缓存的许多其他细节设计。如果你不小心,你最终可能会颠簸你需要的线。我建议避免它用于可移植代码。

关于c - 快速 ARM NEON memcpy,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/11161237/

10-11 04:29
查看更多