• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            是技術(shù),更是藝術(shù)

            一心編程,就沒有解決不了的問題
            posts - 9, comments - 11, trackbacks - 0, articles - 0

            時(shí)間統(tǒng)計(jì)的幾種方法

            Posted on 2010-07-13 23:03 李熙建 閱讀(1039) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 算法
                申明:Blog上的文章只是個(gè)人學(xué)習(xí)的一些記錄和總結(jié),這些記錄部分來自于網(wǎng)絡(luò),加上自己的一些理解,有些已經(jīng)找不到最原始的出處了,在此對(duì)大牛們的貢獻(xiàn)表示感謝,如有侵權(quán)的地方,請(qǐng)通知我,我會(huì)盡快刪除。
                     對(duì)關(guān)注性能的程序開發(fā)人員而言,一個(gè)好的計(jì)時(shí)部件既是益友,也是良師。計(jì)時(shí)器既可以作為程序組件幫助程序員精確的控制程序進(jìn)程,又是一件有力的調(diào)試武器,在有經(jīng)驗(yàn)的程序員手里可以盡快的確定程序的性能瓶頸,或者對(duì)不同的算法作出有說服力的性能比較。GPU程序性能瓶頸測(cè)試,比較常用的工具是NVIDIA PerfHUD ,它能準(zhǔn)確測(cè)量出渲染管線的每個(gè)階段消耗的時(shí)間,從時(shí)間軸上可以很明顯的看出在渲染一幀是,渲染瓶頸在哪個(gè)階段,從而根據(jù)具體情況進(jìn)行優(yōu)化。CPU程序性能分析工具,Intel公司的 VTune在業(yè)界比較常用,一直想用,還沒試過。
                     然而下面將要介紹的,從網(wǎng)上搜集到的一些關(guān)于程序代碼段時(shí)間統(tǒng)計(jì)函數(shù),用于單個(gè)算法的性能分析,比上面提及的工具,更加方便,輕量,易用,根據(jù)你對(duì)時(shí)間統(tǒng)計(jì)的精度要求,選擇不同的時(shí)間統(tǒng)計(jì)函數(shù)。
            1.C語言時(shí)間庫<time.h>的clock()函數(shù)
            unsigned long sTime,eTime;
            double dTime;
            sTime 
            = click();
            ///TODO
            eTime = click(); 
            dTime 
            = (double)(eTime-sTime)/CLOCKS_PER_SEC;
            2. RDTSC :(Read Time Stamp Counter) [1]
            在Intel   Pentium以上級(jí)別的CPU中,有一個(gè)稱為“時(shí)間戳(Time   Stamp)”的部件,它以64位無符號(hào)整型數(shù)的格式,記錄了自CPU上電以來所經(jīng)過的時(shí)鐘周期數(shù)。由于目前的CPU主頻都非常高(1GHz = 109),因此這個(gè)部件可以達(dá)到納秒級(jí)(一秒的10億分之一,即等于10的負(fù)9次方秒)的計(jì)時(shí)精度。這個(gè)精確性是上述方法所無法比擬的。在Pentium以上的CPU中,提供了一條機(jī)器指令RDTSC(Read   Time   Stamp   Counter)來讀取這個(gè)時(shí)間戳的數(shù)字,并將其保存在EDX:EAX寄存器對(duì)中。由于EDX:EAX寄存器對(duì)恰好是Win32平臺(tái)下C++語言保存函數(shù)返回值的寄存器,所以我們可以把這條指令,嵌入?yún)R編代碼的方式,看成是一個(gè)普通的函數(shù)調(diào)用。像這樣:   
              inline   unsigned   __int64   GetCycleCount()   
              
            {   
                __asm   RDTSC   
              }
               
            但是不行,因?yàn)镽DTSC不被C++的內(nèi)嵌匯編器直接支持,所以我們要用_emit偽指令直接嵌入該指令的機(jī)器碼形式0X0F、0X31,如下:   
              inline   unsigned   __int64   GetCycleCount()   
              
            {   
                __asm   _emit   
            0x0F   
                __asm   _emit   
            0x31   
              }
               以后在需要計(jì)數(shù)器的場(chǎng)合,可以調(diào)用兩次GetCycleCount函數(shù),比較兩個(gè)返回值的差,像這樣:   
            #include <iostream>
            #include 
            <Windows.h>
            using namespace  std;
            inline   unsigned   __int64   GetCycleCount()   
            {   
                __asm   _emit   
            0x0F   
                __asm   _emit   
            0x31   
            }
              
            int main()
            {    
                    unsigned   
            long   t;   
                t   
            =   (unsigned   long)GetCycleCount();   
                Sleep(
            1000); 
                t   
            =   (unsigned   long)GetCycleCount() - t;  
                cout
            <<"時(shí)間:"<<t<<endl;
                system(
            "pause");
                
            return 0;
            }
            我的CPU是2.0GHz
            所以輸出結(jié)果:
            時(shí)間:1995027270
            程序所花時(shí)間秒數(shù)   =   RDTSC讀出的周期數(shù)T1-RDTSC讀出周期數(shù)T2   /   CPU主頻速率(Hz)
            缺點(diǎn):
                1.數(shù)據(jù)抖動(dòng)比較厲害,每次測(cè)得結(jié)果都不一樣,波動(dòng)幅度上百甚至上千
                2.在多核下不準(zhǔn)確或不可用,有以下幾個(gè)方面的原因[2]
                   a.兩個(gè)CPU核的內(nèi)部計(jì)數(shù)器不同步。如果程序兩次讀取這個(gè)計(jì)數(shù)器的時(shí)候恰好被輪換到不同的核上,那么用來計(jì)時(shí)就會(huì)有比較大的誤差。
                   b.CPU 的時(shí)鐘頻率可能變化,例如筆記本電腦的節(jié)能功能;
                   c.亂序執(zhí)行導(dǎo)致 RDTSC 測(cè)得的周期數(shù)不準(zhǔn),這個(gè)問題從 Pentium Pro 時(shí)代就存在。
            解決方法[3]:可以采用設(shè)定線程親核性的方法。函數(shù)SetThreadAffinityMask可以指定某線程只在某些核上運(yùn)行(由第二個(gè)參數(shù)設(shè)定,每個(gè)位代表一個(gè)核)。例如,在需要調(diào)用RDTSC的那個(gè)線程里執(zhí)行SetThreadAffinityMask(GetCurrentThread(), 0x00000001);就能保證該線程只在第一個(gè)核上運(yùn)行,不會(huì)因?yàn)閮蓚€(gè)核的RDTSC計(jì)數(shù)器不同步而造成計(jì)時(shí)誤差。我在windows7和VS2005下測(cè)試,測(cè)出的數(shù)據(jù)和我CPU主頻不符,我一度懷疑剛買的筆記本是不是被刷屏了,后來還找了其他的一些測(cè)CPU的工具,比如CPU-Z,這個(gè)問題還沒解決。
            3.使用QueryPerformanceCounter查詢函數(shù)方法
            這個(gè)方法在多核下照常有效,QueryPerformanceFrequency()參數(shù)只和主板上的高精度定時(shí)器的晶振頻率相關(guān)
            在面的例子是兩種求平方根的算法的性能比較,一種采用庫函數(shù)的sqrt(),另一種方法是《編程珠璣》上介紹的牛頓迭代法求平方根,原理類似于二分查找,但是牛頓迭代法收斂速度相比快很多。
            #include <iostream>
            #include 
            <cmath>
            using namespace  std;
            int main()
            {
                    
            //a待輸入的開平方根數(shù)
                     
            //x 選取的x0點(diǎn)
                     
            //y 每次迭代的中間值
                double a, x,y;
                    unsigned 
            long start,endt;
                cin
            >>a;
                LARGE_INTEGER t1,t2,tc;
                QueryPerformanceFrequency(
            &tc);
                printf(
            "Frequency:%u\n",tc.QuadPart);
                QueryPerformanceCounter(
            &t1);
                
            if (a<0)
                    cout
            <<"負(fù)數(shù)沒有平方根!"<<endl;
                
            else
                
            {
                    x 
            = 1;
                    y 
            = (x+a/x)/2;
                    
            while (x!=y)
                    
            {
                        x 
            = y;
                        y 
            = (x+a/x)/2;
                    }

                }

                    QueryPerformanceCounter(
            &t2);
                       //牛頓迭代法求平方根所需時(shí)間;
                    printf(
            "Lasting Time:%u\n",(t2.QuadPart-t1.QuadPart));
                    
            //duration = (double)(finish - start)/CLOCKS_PER_SEC ;
                    cout <<a<<"的平方根為:"<<x<<endl;
                    QueryPerformanceCounter(
            &t1);
                    sqrt(a);
                    QueryPerformanceCounter(
            &t2);
                        //math.h庫函數(shù)sqrt求平方根所需時(shí)間;
                    printf(
            "Lasting Time:%u\n",(t2.QuadPart-t1.QuadPart));
                    cout
            <<a<<"的平方根為:"<<sqrt(a)<<endl;
                system(
            "pause");
                
            return 0;

            兩種求平方根所需時(shí)間對(duì)比如下:

            在圖形學(xué)中求平方根使用頻率非常高,尤其是在碰觸檢測(cè)中,盡量提高求平方根的效率是非常有必要的。
            總結(jié):效率就是生命,在平時(shí)的項(xiàng)目開發(fā)中盡量做到簡(jiǎn)單,簡(jiǎn)單代表高效。這是檢測(cè)高效的第一步。
            引用:
            [1]:http://zhidao.baidu.com/question/41853032.html
            [2]:http://blog.csdn.net/Solstice/archive/2010/01/16/5196544.aspx
            [3]:http://blog.21ic.com/user1/5184/archives/2009/65439.html
            久久久女人与动物群交毛片 | 久久国产亚洲精品无码| 亚洲日韩中文无码久久| 日本道色综合久久影院| 欧美亚洲日本久久精品| 久久久老熟女一区二区三区| 狠狠精品干练久久久无码中文字幕| 亚洲精品无码久久久| 九九久久99综合一区二区| 亚洲国产视频久久| 91麻精品国产91久久久久| 久久精品国产亚洲AV忘忧草18| 婷婷综合久久狠狠色99h| 久久久久久久精品成人热色戒| 久久综合久久综合久久综合| 久久夜色精品国产网站| 亚洲欧美国产精品专区久久| 久久AⅤ人妻少妇嫩草影院| 久久天天躁狠狠躁夜夜2020老熟妇 | 欧美激情精品久久久久| 91精品国产高清久久久久久91| 国产精品成人久久久久三级午夜电影| 久久99精品国产一区二区三区| 久久婷婷五月综合97色直播| 亚洲国产天堂久久久久久| 久久久久久人妻无码| 欧美一级久久久久久久大片| 久久亚洲精精品中文字幕| 国产99久久九九精品无码| 狠狠色丁香婷婷久久综合五月| av午夜福利一片免费看久久| 一本综合久久国产二区| 久久丫精品国产亚洲av不卡| 欧美一级久久久久久久大| 成人资源影音先锋久久资源网| 亚洲中文字幕无码久久综合网| 欧美精品福利视频一区二区三区久久久精品 | 久久精品国产亚洲AV电影| 久久青青色综合| 亚洲国产一成久久精品国产成人综合 | 亚洲精品高清久久|