时间:2021-05-20
什么是循环展开?
循环展开,英文中称Loop unwinding或loop unrolling,是一种牺牲程序的尺寸来加快程序的执行速度的优化方法。可以由程序员完成,也可由编译器自动优化完成。循环展开最常用来降低循环开销,为具有多个功能单元的处理器提供指令级并行。也有利于指令流水线的调度。
循环展开能从两方面改进程序的性能:
循环展开对程序性能的影响
我们直接以实际代码向大家展示循环展开的作用,首先看未经过循环展开优化的代码:
#include <iostream>#include <chrono>int main(){ auto start = std::chrono::system_clock::now(); int sum = 0; int count = 10000; //循环10000次累加 for(int i = 0;i < count;i++){ sum += i; } auto end = std::chrono::system_clock::now(); std::chrono::duration<double> dura = end - start; std::cout <<"共耗时:"<< dura.count() << "s" << std::endl; return 0;}类似于上面的这段代码是我们平常工作中经常见到的,函数目的就是求得1+2+……+9998+9999的累加和,每次循环把i累加到sum变量上,循环次数一共10000次。代码运行结果如下:
可以看出代码运行耗时0.0000279秒。
下面我们将循环展开一次,即把上述代码中的循环改为如下代码:
for(int i = 0;i < count;i += 2){ sum += i; sum += i+1;}即每次循环将i和i+1一起累加到sum变量上,这样可以把循环次数从10000次降低到5000次,由于CPU的高度流水线化,连续两个加法指令增加耗时很低,所以此版本代码可以一定程度上提高程序运行速度,运行结果如下:
代码运行耗时0.0000159秒,相较于未优化代码速度快了将近一倍。
当然,我们可以继续增加循环展开次数以进一步提高程序运行速度,但是这个增加循环展开次数也是有限度的,当达到了CPU的最高吞吐量之后,继续增加循环展开次数是没有意义的。
上述循环展开后的代码依然有进一步优化的空间,那就是消除连续指令的相关性,以达到指令级并行,我们可以看到循环展开后的代码,循环体中有两条语句:sum += i 和 sum += i+1,第二条语句sum += i+1依赖于第一条命来sum += i的执行结果,所以这两条语句只能依次执行,限制了CPU进一步提高性能的可能。如果我们将循环体改为如下代码:
int sum1=0,sum2=0;for(int i=0;i < count;i+=2){ sum1 += i; sum2 += i+1;}sum = sum1 + sum2;我们新建了两个变量sum1和sum2用于存储循环展开时两个累加语句的累加结果,最后在循环体外将两部分结果相加得到最终结果。该代码中两个累加语句之间是互不相关的,所以CPU可以并行执行这两条指令,以达到性能的进一步提高。下面是运行结果:
代码运行耗时0.0000073秒,相较于只进行循环展开的代码速度又快了将近一倍。
总结
由上面三段代码的运行速度对比可以看出,循环展开对程序性能有着很重要的影响,可以减少分支预测错误次数,增加取消数据相关进一步利用并行执行提高速度的机会。但是,并不建议大家进行手动的循环展开,在代码中进行循环展开会导致程序的可读性下降,代码膨胀。为了直观感受循环展开对性能的影响,上述代码运行结果均是在不开编译器优化的情况下进行的测试,其实在我们开启了编译器优化的时候,编译器会自动对我们的循环代码进行循环展开,让我们可以在保持了代码可读性的同时,又能享受到循环展开对我们程序性能的提高。
好了,以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对的支持。
声明:本页内容来源网络,仅供用户参考;我单位不保证亦不表示资料全面及准确无误,也不保证亦不表示这些资料为最新信息,如因任何原因,本网内容或者用户因倚赖本网内容造成任何损失或损害,我单位将不会负任何法律责任。如涉及版权问题,请提交至online#300.cn邮箱联系删除。
C++基础教程之指针拷贝详解指针是编程人员的梦魇,对C语言的开发者是如此,对C++的开发者也是如此。特别是在C++中,如果不注意处理类中的指针,非常容易出问题。
从串行到并行串行指一个步骤一个步骤地处理,也就是通常情况下,代码一行一行地执行。如果将我们常用的迭代器式的循环展开的话,就是串行执行了循环体内所定义的操作:su
c++和c的区别如下: 1、C++是一个开放标准,旨在实现速度和性能和关键性的高性能系统,有很多令人印象深刻的项目使用Lander,AdobeAcrobatR
本文实例讲述了C++双向循环列表用法。分享给大家供大家参考。具体如下:#includeusingnamespacestd;//结构体构造链表
本系列教程主要介绍如何在C/C++程序里面嵌入Lua脚本,我打算从以下几个方面来介绍:1.如何在C/C++里面嵌入Lua脚本2.Lua访问C/C++数据结构(这