cppopp

關于for循環的執行效率問題

先提出這樣一個問題，是我昨天去一家公司面試時遇到的問題，
模塊一：

1  for（int i= 0；i<N; i++）
2  {
3      A;
4      B;
5      C;
6  }
7

模塊二：

1  for（int i= 0；i<N; i++）
2  {
3      A;
4  }
5  for（int i= 0；i<N; i++）
6  {
7      B;
8  }
9
10  for（int i= 0；i<N; i++）
11  {
12      C;
13  }

舉出3個例子說明模塊一比模塊二執行效率高，同樣舉出3個例子證明模塊二比模塊一執行效率高。
頭一次遇到這種問題，很棘手，我當時的思路是從cpu執行效率、內存使用效率這兩個方面來考慮，列舉了一些可能的情況，應付了過去。
回來仔細想了一下，查了一些相關的帖子好像都有提過，但都不是很全面，先把問題拋在這個地方等搞清楚了在寫。

我以前遇到的問題大概都是這種類型的：

1 for(int i = 0;i<100;i++)
2 {
3    for(int j = 0;j<10000;j++)
4    {
5       //balabala

6    }
7 }
8 和
9 for(int i = 0;i<10000;i++)
10 {
11    for(int j = 0;j<100;j++)
12    {
13       //balabala

14 }
15 }

這兩個程序那個執行效率高，如果是以前我會毫不猶豫的說是第一個效率高，這是由于cpu切換的次數比較多導致性能下降，知道這句話不理解什么原理。我比較贊同下面的說法，

1. 最長循環放到內部可以提高I cache的效率,降低因為循環跳轉造成cache的miss以及流水線flush造成的延時
2. 多次相同循環后也能提高跳轉預測的成功率，提高流水線效率
3. 編譯器會自動展開循環提高效率, 這個不一定是必然有效的
但不是絕對正確的，比如: 1 int x[1000][100];

2 for(i=0;i<1000;i++)
3   for(j=0;j<100;j++)
4 {
5   //access x[i][j]
6 }
7
8 int x[1000][100];
9 for(j=0;j<100;j++)
10   for(i=0;i=1000;i++)
11 {
12   //access x[i][j]
13 }
14

這時候第一個的效率就比第二個的高，原因嘛和硬件也有一些關系，CPU對于內存的訪問都是通過數據緩存(cache)來進行的。

比如一個通用CPU,一級緩存(L1-Cache)的大小為16K,而其組織結構為每32個字節一組(cache line size=32byte),
也就是每次從二級緩存或內存取數據到一級緩存，都是一次性取32個字節。
對于上面的第一段代碼，每次取數據到一級緩存，都有連續8次內存訪問可以共享一條緩存。
而對于第二段代碼，每次取數據到一級緩存后，訪問一次后，基本上就沒有機會被再次使用了；
上面這兩段代碼的區別在于第一段代碼，每次內存訪問后，地址值需要加常數4，而第二段代碼，每次訪問后，地址值加400。

如果沒有對于緩存訪問的區別，那么這時我們的確可以將長的循環放在里層，短的放在外層。但是而其主要原因不是一般人所想象的指令數目的區別的問題，
而主要由于分支預測錯誤會引起的流水線中斷從而導致性能的降低。
最后一個問題，有人說while比for循環效率高,不知道這個假設是否正確，先立在這搞清楚再補充。

posted on 2011-12-07 19:57 sheng 閱讀(3247) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

cppopp

關于for循環的執行效率問題

導航

統計

常用鏈接

留言簿(1)

隨筆檔案

收藏夾

同行

搜索

最新評論

閱讀排行榜

評論排行榜