这是一个教科书问题,涉及重写一些C代码以使其在给定的处理器体系结构上发挥最佳性能。
给定:针对具有4个加法器和2个乘法器单元的单个超标量处理器。
输入结构(在其他地方初始化):
struct s {
short a;
unsigned v;
short b;
} input[100];
这是处理此数据的例程。显然,必须确保正确性,但是目标是优化废品率。
int compute(int x, int *r, int *q, int *p) {
int i;
for(i = 0; i < 100; i++) {
*r *= input[i].v + x;
*p = input[i].v;
*q += input[i].a + input[i].v + input[i].b;
}
return i;
}
因此,此方法有3条算术指令来更新整数r,q,p。
这是我尝试用注释解释我在想什么的尝试:
//Use temp variables so we don't keep using loads and stores for mem accesses;
//hopefully the temps will just be kept in the register file
int r_temp = *r;
int q_temp = *q;
for (i=0;i<99;i = i+2) {
int data1 = input[i];
int data2 = input[i+1]; //going to try partially unrolling loop
int a1 = data1.a;
int a2 = data2.a;
int b1 = data1.b;
int b2 = data2.b;
int v1 = data1.v;
int v2 = data2.v;
//I will use brackets to make my intention clear the order of operations I was planning
//with respect to the functional (adder, mul) units available
//This is calculating the next iteration's new q value
//from q += v1 + a1 + b1, or q(new)=q(old)+v1+a1+b1
q_temp = ((v1+q1)+(a1+b1)) + ((a2+b2)+v2);
//For the first step I am trying to use a max of 3 adders in parallel,
//saving one to start the next computation
//This is calculating next iter's new r value
//from r *= v1 + x, or r(new) = r(old)*(v1+x)
r_temp = ((r_temp*v1) + (r_temp*x)) + (v2+x);
}
//Because i will end on i=98 and I only unrolled by 2, I don't need to
//worry about final few values because there will be none
*p = input[99].v; //Why it's in the loop I don't understand, this should be correct
*r = r_temp;
*q = q_temp;
好吧,我的解决方案给了我什么?看旧代码,i的每个循环迭代将采用max((1A + 1M),(3A))的最小延迟,其中前一个值用于计算新的r,而3 Adds的延迟则用于q。
在我的解决方案中,我将展开2并尝试计算r和q的第二个新值。假设加法器/乘法器的等待时间为M = c * A(c是大于1的整数),则r的乘法运算无疑是速率限制的步骤,因此我将重点放在此。我试图尽可能多地并行使用乘法器。
在我的代码中,首先并行使用2个乘法器以帮助计算中间步骤,然后加法必须将这些乘法相结合,然后使用最后的乘法来获得最后的结果。因此,对于r的2个新值(即使我只保留/关心最后一个值),也需要我(1M//1M//1A)+ 1A + 1M,顺序总延迟为2M + 1M。除以2,我的每个循环值延迟为1M + 0.5A 。我计算出原始延迟/值(对于r)为1A + 1M。因此,如果我的代码是正确的(我是手工完成的,还没有测试!),那么我的性能会有一点提高。
而且,希望通过不直接在循环中直接访问和更新指针(主要是由于临时变量r_temp和q_temp),我节省了一些加载/存储延迟。
那是我的目的。绝对有兴趣看到别人想出什么更好的选择!
最佳答案
是的,可以利用两条短裤。如此重新排列您的结构
struct s {
unsigned v;
short a;
short b;
} input[100];
并且您可能能够更好地对齐体系结构上的内存字段,这可能使更多这些结构位于同一内存页面中,从而使您遇到的内存页面错误更少。
都是投机性的,这就是为什么如此重要的原因。
如果您具有正确的体系结构,则重新排列将为您提供更好的data structure alignment,,这会导致内存中的数据密度更高,因为必要的填充会丢失较少的位,以确保类型与常见内存体系结构所施加的数据边界对齐。
关于c - 优化并重写以下C代码,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/12375709/