青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Heath's Blog

There is no end, it is just the beginning! - A Game Developer's Notes

針對CUDA的GPU架構知識與性能對比

     5年前將《GPU Gems 2》中的“Octree Textures on the GPU”用到了論文的實時紋理創作一節,那時候CUDA才剛出生,OpenCL應該還在規范階段,所以將GPU用于加速和通用計算的成熟方法還是compution by texturing。至于同樣的計算量在CPU和GPU上跑,性能到底提升多少,也沒有做過對比實驗。周末翻了下《CUDA by Example: An Introduction to General-Purpose GPU Programming》,基本掌握了用CUDA編寫GPU思想和語法,比起將數據做為紋理、Shader寫算法來,進步了不少:1)開發人員不需要熟悉渲染管線及圖形API;2)不用花時間去搭建DX或者OpenGL的框架;3)Host與Device代碼混編;4)不必采用Hacking思想處理包裝成紋理的數據;5)可指定參與計算的線程數。有了如此方便的編程環境,就隨手來做一下對比吧,這個例子來自《CUDA by Example》的4.2.2生成Julia集。

     測試代碼需要做一些調整,才能更好地體現出GPU的平行計算優勢,這其中牽涉到支持CUDA的GPU架構知識,在這里做一下梳理。

     在Nvidia推出Fermi架構之前,支持CUDA的Nvidia顯示芯片都是由多個Streaming Multiprocessor(簡稱SM)組成,每個SM包含了八個Stream Processor(簡稱SP),每四個SP組成一個組,也就是說SM實際上可以看成包含兩組4D的SIMD處理器。此外,每個SM還包含Register、share memory、texture cache以及constant cache。在執行 CUDA 程序的時候,每個SM對應一個 block,而每個SP就是對應一個 thread。雖然一個SM只有八個SP,但是由于SP進行各種運算都有延遲,更不用提內存存取的延遲了,因此 CUDA 在執行程序的時候,實際是以 warp 為單位。目前的支持CUDA顯卡,一個 warp 里面有32個 threads,分成兩組16 threads的half-warp。由于SP的運算至少有4個時鐘周期的延遲,因此對一個4D的SP來說,一次至少執行16個 threads(即 half-warp)才能有效覆蓋掉各種運算的延遲[1]。

Image

圖 1

     在GeForce GTX 400系列上,Nvidia采用了全新的Fermi架構[2],之后的顯卡的Compute Capability也從1.3躍升至2.0。SP改名為CUDA Core,提升到了32個/SM[3]。圖2為Fermi核心演變,從GF104和由其發展起來的GF114、GF106、GF108的CUDA Core都上升到了48個/SM,支持2.1的Compute Capability,而GF100和GF110依舊是32個。最新基于Kepler架構的GeForce GTX 680支持3.0的Compute Capability,CUDA Core數量達到了192個/SM。

Image(1)

圖 2

     由于測試平臺采用的是GTX 560 Ti,所以需要分析一下它的架構。GTX 560 Ti由8個SM組成,下圖中,左邊是從程序獲取的設備屬性,右邊為單個SM內部結構示例圖。可以看到,GTX 560 Ti的每個SM配備了兩個Warp調度器,因此每個周期對兩個包含32個線程的Warp進行分發。另外,對于一個二維圖像,為kernel指定2D的grid和block可使代碼更加直觀。為此,block采用(16,16),總共分配256個(64*4)threads在一個SM上執行,如果需要產生1024*1024的Julia分形圖,則需要grid為(64,64)。

Image(2) Image(3)

圖 3

     測試平臺為:

Image(4)

     測試代碼說明:

     1)代碼分為CPU實現和CUDA實現;

     2)均采用CPU計時方法;

     3)只針對計算部分測試,不包括內存分配、傳輸以及文件寫入;

     下面列出main函數代碼,左邊為CPU實現,右邊為CUDA實現,均編譯為release版本。

Image(5)Image(6)

     測試結論:CPU版本耗時244ms,CUDA版本耗時2.1087ms。這可是100倍的效率提升啊。不過CPU版本沒有經過多核優化,所以這樣這樣對比實在不公平,但這卻凸顯出CUDA C將并行思想融入語言規則的優勢。

out

     在驚訝GPU用作通用計算的執行效率時,別忘了它還是有諸多應用上的問題:

     1)初始化耗時,需要在顯存分配空間,然后將數據從內存copy到顯存;
     2)數據量受GPU顯存限制;
     3)對本身就需要GPU參與運算的程序,如:3D游戲,通用計算會爭奪GPU資源,如果做平衡?
     4)計算數據之間的不相關性限制了GPU通用計算的應用范圍;

     5)CPU算法到適合GPU架構算法的移植;

     最后,GPU硬件設計本身就已經決定了它的強項是密集數據處理(如:科學計算、醫療圖像處理),在邏輯處理方面還是CPU的天下,所以它們是互補的,只會有整合而非替代的趨勢。

[1] http://www2.kimicat.com/gpu%E7%9A%84%E7%A1%AC%E9%AB%94%E6%9E%B6%E6%A7%8B

[2] http://www.chip.cn/index.php?option=com_content&view=article&id=2857:geforce-gtx-400-gpu&catid=7:test-technology&Itemid=15

[3] http://www.geeks3d.com/20100606/gpu-computing-nvidia-cuda-compute-capability-comparative-table

[4] http://www.expreview.com/13590-2.html

[5] http://en.wikipedia.org/wiki/CUDA

posted on 2012-11-27 23:13 Heath 閱讀(3890) 評論(4)  編輯 收藏 引用 所屬分類: Graphics Programming

Feedback

# re: 針對CUDA的GPU架構知識與性能對比[未登錄] 2012-11-28 15:17 Hunter

好文要頂!  回復  更多評論   

# re: 針對CUDA的GPU架構知識與性能對比 2012-11-29 13:04 bukebushuo

CUDA的最大缺點是需要特定硬件  回復  更多評論   

# re: 針對CUDA的GPU架構知識與性能對比 2012-12-13 20:02 moondark

博主,我想問一下, 對于cuda5.0,結合opencv能否在debug版本下進行編譯?
我的在debug版本下編譯會顯示cuda的dll“并沒有debug版本”(Binary was not built with debug information.)所以不能執行, 但在release下進行編譯,就沒問題~
  回復  更多評論   

# re: 針對CUDA的GPU架構知識與性能對比[未登錄] 2012-12-15 22:18 Heath

@moondark
cuda對外不會有debug版,有沒有試過用opencv去link release版的cuda庫?  回復  更多評論   

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            最新国产乱人伦偷精品免费网站| 久久天天狠狠| 一区二区电影免费观看| 在线欧美小视频| 伊人精品成人久久综合软件| 黄色欧美成人| 亚洲日本成人女熟在线观看| 国产欧美日韩视频| 欧美在线视频一区二区| 久久黄色级2电影| 久久在线免费视频| 亚洲国产精品成人久久综合一区| 亚洲日韩中文字幕在线播放| 亚洲精品日本| 亚洲欧美在线磁力| 久久婷婷久久| 欧美视频在线免费看| 国产精品一区二区在线观看不卡 | 伊人婷婷欧美激情| 亚洲精品影视| 久久gogo国模啪啪人体图| 老司机午夜精品| 亚洲高清在线精品| 亚洲激情视频在线观看| 亚洲人久久久| 亚洲一区二区欧美| 欧美在线国产| 欧美va天堂va视频va在线| 欧美国产日韩二区| 亚洲欧美国产精品va在线观看| 麻豆av福利av久久av| 久久久亚洲国产美女国产盗摄| 亚洲免费视频一区二区| 亚洲欧美日韩精品久久奇米色影视| 欧美在线不卡视频| 亚洲精品少妇| 久久午夜色播影院免费高清| 国产精品福利在线观看| 亚洲福利视频网| 欧美在线看片a免费观看| 亚洲福利在线看| 午夜日本精品| 国产精品久久777777毛茸茸| 亚洲精品久久久一区二区三区| 久久精品国产v日韩v亚洲| 亚洲毛片在线观看.| 久久中文字幕一区| 国产最新精品精品你懂的| 欧美一二三区在线观看| 日韩一级欧洲| 欧美日韩国产黄| 亚洲伦伦在线| 亚洲大黄网站| 蜜桃视频一区| 在线观看欧美黄色| 久久久91精品国产一区二区三区 | 在线亚洲欧美视频| 亚洲国产婷婷香蕉久久久久久99| 久久福利一区| 韩国一区二区三区美女美女秀| 欧美在线|欧美| 午夜日韩福利| 悠悠资源网久久精品| 久久夜色精品| 久久综合国产精品| 亚洲人成在线观看一区二区 | 亚洲激情视频在线| 欧美二区在线观看| 99视频国产精品免费观看| 亚洲电影中文字幕| 欧美国产欧美亚州国产日韩mv天天看完整 | 欧美成人69av| 亚洲精品一区二| 99亚洲一区二区| 国产精品久久久久久久久久直播 | 亚洲午夜精品一区二区三区他趣| 免费亚洲一区| 亚洲精品一区二区三区福利| 亚洲国产另类精品专区| 欧美激情黄色片| 日韩一级免费| 亚洲在线免费观看| 韩国精品在线观看| 亚洲大胆女人| 欧美亚日韩国产aⅴ精品中极品| 午夜精品久久久久久久99热浪潮| 午夜在线精品偷拍| 亚洲第一在线| 这里只有精品视频在线| 国产一区二区激情| 亚洲激情在线激情| 国产日产欧产精品推荐色| 免费久久精品视频| 欧美日韩一区在线观看| 久久精品国产亚洲高清剧情介绍| 久久综合九色欧美综合狠狠| 亚洲视频你懂的| 久久青草福利网站| 午夜视频一区二区| 欧美wwwwww| 久久久免费av| 国产精品精品视频| 亚洲夫妻自拍| 国产一区二区三区电影在线观看| 欧美激情亚洲视频| 国产一二精品视频| 一区二区三区波多野结衣在线观看| 国内精品模特av私拍在线观看| 日韩亚洲不卡在线| 最近看过的日韩成人| 欧美在线视频a| 亚洲一区二区在线看| 老司机午夜精品| 久久久国产精彩视频美女艺术照福利 | 亚洲国产日韩在线| 亚洲欧美乱综合| 一区二区av在线| 另类尿喷潮videofree| 中文在线不卡视频| 老鸭窝毛片一区二区三区 | 欧美一级久久久久久久大片| 欧美黄色免费网站| 欧美大片91| 狠色狠色综合久久| 亚洲欧美三级伦理| 亚洲欧美精品在线| 欧美三级免费| 日韩午夜黄色| 一区二区三区回区在观看免费视频| 看片网站欧美日韩| 猫咪成人在线观看| 狠狠综合久久av一区二区小说| 欧美一区二区播放| 久久精品最新地址| 国产日韩精品一区观看 | 欧美福利在线观看| 欧美成人免费小视频| 有坂深雪在线一区| 久久一日本道色综合久久| 鲁大师成人一区二区三区| 国外成人网址| 久久综合九色综合久99| 欧美 日韩 国产 一区| 影音先锋亚洲视频| 久久夜色精品国产亚洲aⅴ| 欧美韩日精品| 在线视频精品一| 国产精品久久久免费| 在线亚洲成人| 欧美伊人久久久久久午夜久久久久 | 久久超碰97中文字幕| 国产原创一区二区| 久久av资源网| 噜噜爱69成人精品| 日韩视频中文| 国产精品日韩欧美大师| 欧美一区在线视频| 欧美高清视频一区二区| 日韩亚洲精品电影| 国产精品久久久久久一区二区三区| 亚洲男人的天堂在线| 蜜桃伊人久久| 亚洲淫片在线视频| 亚洲天堂av高清| 亚洲一区999| 国产一区二区日韩精品欧美精品| 久久手机免费观看| 在线一区免费观看| 米奇777在线欧美播放| 一本色道久久综合亚洲91| 国产精品夜色7777狼人| 久久伊人一区二区| 在线一区二区三区四区五区| 久久蜜桃资源一区二区老牛 | 欧美成人首页| 亚洲制服少妇| 在线视频中文亚洲| 国产精品裸体一区二区三区| 欧美专区亚洲专区| 夜色激情一区二区| 老司机久久99久久精品播放免费| 亚洲小说区图片区| 亚洲高清网站| 国产亚洲女人久久久久毛片| 欧美激情四色| 久久久久久久一区二区| 在线视频欧美一区| 亚洲国产精品一区二区久| 午夜在线a亚洲v天堂网2018| 91久久精品www人人做人人爽 | 亚洲国产免费看| 国产精品人人做人人爽| 欧美人交a欧美精品| 狼人天天伊人久久| 午夜精品影院在线观看| 夜夜嗨av一区二区三区四季av| 免费中文字幕日韩欧美| 久久xxxx| 久久久久久国产精品一区| 亚洲欧美日韩精品久久奇米色影视|