忘卻之湖

posts - 43, comments - 64, trackbacks - 0

GPU還可以做什么 —— Brook for GPUs,Stream Computing On GPUs

??? 研究GPGPU也有一段時(shí)間了，去年這個(gè)時(shí)候正在學(xué)習(xí)GLSL。一段時(shí)間前在opengl.org上面發(fā)了一個(gè)Suggestion，建議GLSL向Cg以及CgFX學(xué)學(xué)架構(gòu)，不要這樣成對(duì)成對(duì)的零散使用，雖然說(shuō)自己可以寫class進(jìn)行封裝，可是如果Shader一多管理起來(lái)是相當(dāng)?shù)念^疼，應(yīng)該學(xué)學(xué)HLSL Cg那樣的方式，通過(guò)technique與pass的選擇進(jìn)行渲染，在概念上也符合multi-pass。

??? GPU的SIMD性能超強(qiáng)，比CPU強(qiáng)得太多太多，由此帶來(lái)異常強(qiáng)悍的浮點(diǎn)運(yùn)算性能，請(qǐng)看下圖。

??? 畫外音：不知道我的6200A排在什么地方哈哈。

??? 其實(shí)上圖有偏頗，這張圖節(jié)選自Siggraph2004，而現(xiàn)在ATi 1800XT的SIMD性能已經(jīng)超過(guò)了6800好多，可不是游戲性能。不過(guò)可以看出，比CPU的浮點(diǎn)運(yùn)算性能高好幾倍是不真的事實(shí)，可是如何利用呢？

??? 可編程硬件的到來(lái)為我們開了一個(gè)好頭，也許未來(lái)計(jì)算機(jī)硬件的發(fā)展趨勢(shì)就是，通用計(jì)算Generic Computing（GC，自造詞匯，可不是垃圾收集）。顯卡一直以來(lái)都是和Pixel打交道，讀取Texel，處理Primitive，寫入FrameBuffer，為SIMD的應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ)。顯卡芯片從開始就是并行設(shè)計(jì)的，這樣從紋理單元讀取Texel時(shí)才能發(fā)揮效力，當(dāng)年大名鼎鼎的Riva TNT2的意思其實(shí)是TwiNs Textures雙紋理，而不是黃色炸藥。Geforce3依靠添加的幾個(gè)昂貴的register實(shí)現(xiàn)了Vertex Programming。NV收購(gòu)3dfx，推出NV30系列芯片，伴隨著DX8為PC機(jī)引入Shader，開創(chuàng)PC機(jī)圖像畫質(zhì)飛躍的先河，如今熱門游戲大多數(shù)已經(jīng)使用可編程著色技術(shù)用來(lái)實(shí)現(xiàn)以往在工作站上才能實(shí)現(xiàn)的效果，這就是為什么如今看游戲?qū)崟r(shí)演算的畫面都比當(dāng)年Square動(dòng)用sgi工作站集群渲染出來(lái)的FF8動(dòng)畫效果好的原因。其實(shí)高級(jí)CG圖形理論在80年代就已經(jīng)相當(dāng)成熟，比如78年的Shadow mapping，White的Ray-tracing等等。那些技術(shù)以后我會(huì)慢慢給大家介紹，大家不妨去NVIDIA下載一個(gè)SDK研究一下，還有MS DX SDK也是必需的。

??? 先說(shuō)目前可編程硬件用作通用計(jì)算的局限，而且在我看來(lái)，這個(gè)局限在Vista與DX10流行后可能依舊得不到解決，那就是API的問(wèn)題。顯卡廠商提供的驅(qū)動(dòng)，無(wú)一例外的都是徹底為顯示服務(wù)的，而不是用來(lái)標(biāo)榜自己是GPGPU的。雖然說(shuō)都有了自己的本地編譯器（主要是用于編譯GLSL string codes，HLSL可以預(yù)先編譯好，然后再由驅(qū)動(dòng)載入執(zhí)行），可是依舊不是為了計(jì)算非圖形數(shù)據(jù)服務(wù)。于是找到了Sh。Sh是一個(gè)很有趣的東西，使用了metaprogramming技術(shù)，模擬圖形語(yǔ)言的算法，編譯的時(shí)候轉(zhuǎn)化為對(duì)應(yīng)的低等級(jí)ASM語(yǔ)句，很多Graphic Slide里面進(jìn)行核心算法展示的時(shí)候都用的Sh。有興趣地可以到這里看一下。強(qiáng)烈建議顯卡廠商推出可以直接進(jìn)行計(jì)算的驅(qū)動(dòng)，不要和FrameBuffer牽涉，可以直接通過(guò)Bus寫入內(nèi)存，技術(shù)上并不難，也許是個(gè)商業(yè)問(wèn)題。關(guān)鍵時(shí)刻永遠(yuǎn)是商業(yè)左右技術(shù)的發(fā)展，而不是技術(shù)人員的一廂情愿就可以左右世界發(fā)展，如今已經(jīng)不是工業(yè)革命時(shí)代了。

??? 給大家介紹來(lái)自Starford University的Brook（聽起來(lái)好像廣告，不過(guò)在Shading Language界可是有Starford Shading Language得一席之地的）。Brook可以理解為是一個(gè)C編譯器，只不過(guò)它編譯的不是Bin，而是C++ string codes，而且是著色計(jì)算語(yǔ)句數(shù)組。比如有這樣一段Brook代碼，簡(jiǎn)單的Alpha混合，不對(duì)，不像，反正就是它了：

kernel?void?saxpy(float?alpha,?float4?x<>,?float4?y<>,
out?float4?result<>)?{
result?=?(alpha?*?x)?+?y;
}

???
??? 編譯成最終的C++代碼變成，

static?const?char*?__saxpy_fp30[]?=?{
"!!FP1.0\n"
"DECLARE?alpha;\n"
"TEX?R0,?f[TEX0].xyxx,?TEX0,?RECT;\n"
"TEX?R1,?f[TEX1].xyxx,?TEX1,?RECT;\n"
"MADR?o[COLR],?alpha.x,?R0,?R1;\n"
"END?\n"
"##!!BRCC\n"
"##narg:4\n"
"##c:1:alpha\n"
"##s:4:x\n"
"##s:4:y\n"
"##o:4:result\n"
"##workspace:1024\n"
"##!!multipleOutputInfo:0:1:\n"
"",NULL};
void?saxpy?(const?float?alpha,const?::brook::stream&?x,const?::brook::stream&?y,
::brook::stream&?result)?{
??? static?const?void?*__saxpy_fp[]?=?{"fp30",?__saxpy_fp30,?"ps20",?__saxpy_ps20,
??? ??? ??? ??? ??? "cpu",?(void?*)?__saxpy_cpu,?NULL,?NULL?};
??? static?__BRTKernel?k(__saxpy_fp);
??? k->PushConstant(alpha);
??? k->PushStream(x);
??? k->PushStream(y);
??? k->PushOutput(result);
??? k->Map();
}

???
??? 這不就是純粹的Shading Language么。不過(guò)值得注意的是，Brook通過(guò)運(yùn)行庫(kù)進(jìn)行封裝，把GPU當(dāng)作Streaming Processor，由CPU進(jìn)行控制，計(jì)算數(shù)據(jù)并輸出。目前似乎只能進(jìn)行圖形的計(jì)算，比如FFT，Ray-Tracing等演示，還沒(méi)有到達(dá)能夠計(jì)算pi的程度。

??? 思考了一下。精度問(wèn)題需要解決，F(xiàn)P16剛剛開始廣泛使用，F(xiàn)P32還不能夠支持硬件過(guò)濾。FP32僅僅只是IEEE754 float的精度而已，更本談不上double的精度，用在需要精度較高的地方可能還不是很適合。如我設(shè)想那樣，進(jìn)行pi的幾百萬(wàn)位的計(jì)算，目前來(lái)說(shuō)不太可能，首先，Shading Language從來(lái)就沒(méi)有提供地址的操作，也就是無(wú)法選澤Pixel的位置，也就是無(wú)法對(duì)FrameBuffer進(jìn)行準(zhǔn)確定位。如果可以解決這個(gè)問(wèn)題，那么就可以進(jìn)行真正意義上的通用計(jì)算，那個(gè)時(shí)候FrameBuffer只是一個(gè)暫時(shí)的緩沖容器而已。

??? SIMD的物理計(jì)算可以相當(dāng)?shù)膹?qiáng)悍。物理特性計(jì)算都是強(qiáng)調(diào)同時(shí)性的，而GPU可以同時(shí)并行計(jì)算，充分發(fā)揮了自己的優(yōu)勢(shì)，難怪NVIDIA要和Havok進(jìn)行合作。記得以前看過(guò)博客園中一位先生寫的物理引擎，著實(shí)震驚，我建議他不妨研究研究這一塊。Stream的概念將在DX10上得到徹底的詮釋，不妨看看我以前翻譯的DX10文章，其中Geometry Shader很有意思。

??? 我期待下一代API出現(xiàn)，一個(gè)嶄新的軟硬件組合方案，這樣就可能為Display Adapter這個(gè)古老的東西帶來(lái)真正的革命。值得注意的是，AMD已經(jīng)收購(gòu)了ATi，而Intel還在為100億美元收購(gòu)NV的價(jià)格評(píng)估的時(shí)候，也許下一代變革已經(jīng)開始了，讓我們拭目以待。

??? 提到的東西可以在這里找到
??? Brook http://sourceforge.net/projects/brook
??? libSh http://sourceforge.net/projects/libsh

posted on 2006-10-14 22:21 周波閱讀(2618) 評(píng)論(1) 編輯收藏引用所屬分類: Cg藝術(shù) 、無(wú)庸技術(shù)

FeedBack:

# re: GPU還可以做什么 —— Brook for GPUs,Stream Computing On GPUs

2007-08-09 18:06 | m17

文章拜讀中...

嘿嘿，對(duì)筆者的個(gè)人發(fā)展方向很感興趣哦，公司最近在召各方面的三維人才哦，不知道你有沒(méi)有興趣哦回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: Pure GPU Computing Platform : NVIDIA CUDA Tutorial 利用SAH實(shí)現(xiàn)kD樹快速分割模型實(shí)踐 Progressive Mesh 矩陣圣經(jīng) FOR 3D Computer Graphic Final BattleField 2142引擎圖形程序員小訪談 GPU還可以做什么 —— Brook for GPUs,Stream Computing On GPUs

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

<

2025年11月

>

日

一

二

三

四

五

六

26

27

28

29

30

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

周波 87年出生南京林業(yè)大學(xué)05421班242信箱專業(yè)木材科學(xué)與工程工業(yè)裝備與過(guò)程自動(dòng)化遷移到 jedimaster(dot)cnblogs(dot)com

常用鏈接

留言簿(4)

隨筆分類

隨筆檔案

新聞檔案

2007年1月 (1)

同學(xué)們Blog

Rita的QZONE
隊(duì)長(zhǎng)的BLOG
海翎的BLOG
胡小松的Blog
君胖的Blog
貓貓的BLOG
丫頭的BLOG
左圓的BLOG

搜索

積分與排名

積分 - 55424
排名 - 421

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品