在iOS 6项目中,我有一个包含两个字节字(16位)的缓冲区,需要通过查找表将其转换为四个字节字(32位)。我将值硬编码到表中,然后使用两个字节缓冲区的值确定要检索的32位表值。这是一个例子:
void map_values(uint32_t *dst,uint16_t *src,uint32_t *lut,int buf_length){
int i=0;
for(i=0;i<buf_length;i++){
*dst = *(lut+(*src));
dst++;
src++;
}
}
问题是,它太慢了。可以通过使用NEON一次处理4个输出字节来加快速度吗?问题是,我对如何从src缓冲区中获取值并将其用作查找表的输入以弄清楚要检索的值不满意。另外,表和输出缓冲区中的字长相同,但源地址中的字长相同。因此,我只能读取两个16位字作为输入,而我需要读取四个32位字。有任何想法吗?也许有更好的方法来解决这个问题?
当前的asm输出从clang(clang -O3 -arch armv7 lut.c -S):
.section __TEXT,__text,regular,pure_instructions
.section __TEXT,__textcoal_nt,coalesced,pure_instructions
.section __TEXT,__const_coal,coalesced
.section __TEXT,__picsymbolstub4,symbol_stubs,none,16
.section __TEXT,__StaticInit,regular,pure_instructions
.syntax unified
.section __TEXT,__text,regular,pure_instructions
.globl _map_values
.align 2
.code 16 @ @map_values
.thumb_func _map_values
_map_values:
@ BB#0:
cmp r3, #0
it eq
bxeq lr
LBB0_1: @ %.lr.ph
@ =>This Inner Loop Header: Depth=1
ldrh r9, [r1], #2
subs r3, #1
ldr.w r9, [r2, r9, lsl #2]
str r9, [r0], #4
bne LBB0_1
@ BB#2: @ %._crit_edge
bx lr
.subsections_via_symbols
最佳答案
查找表(几乎)不可向量化。很小的查询表可以使用vtbl
指令处理,但是您的查询表太大了。
您正在使用查找表做什么?如果可以在不进行过多工作的情况下即时计算这些值,而不必查找它们,那么这实际上可能是您的一项重大胜利。
关于iphone - 如何使用NEON在ARM程序集中实现16位-> 32位查找表?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/14776665/