寫3d圖形程序,就一定會做坐標變換。而談到坐標變換,就不得不提起投影變換,因為它是所有變換中最不容易弄懂的。但有趣的是,各種關于透視變換的文檔卻依然是簡之又簡,甚至還有前后矛盾的地方。看來如此這般光景,想要弄清楚它,非得自己動手不可了。所以在下面的文章里,作者嘗試推導一遍這個難纏的透視變換,然后把它套用到 DX和 PS2lib 的實例中去。
-
一般概念
所謂透視投影變換,就是view 空間到project 空間的帶透視性質的坐標變換步驟(這兩
個空間的定義可以參考其他文檔和書籍)。我們首先來考慮它應該具有那些變換性質。很顯然,它至少要保證我們在view空間中所有處于可視范圍內的點通過變換之后,統統落在project空間的可視區域內。好極了,我們就從這里著手——先來看看兩個空間的可視區域。
由于是透視變換,view空間中的可見范圍既是常說的視平截體(view frustum)。如圖,
(圖1)
它就是由前后兩個截面截成的這個棱臺。
從view空間的x正半軸看過去是下圖這個樣子。
(圖2)
接下來是project空間的可視范圍。這個空間應當是處于你所見到的屏幕上。實際上將屏幕表面視作project空間的xoy平面,再加一條垂直屏幕向里(或向外)的z軸(這取決于你的坐標系是左手系還是右手系),這樣就構成了我們想要的坐標系。好了,現在我們可以用視口(view port)的大小來描述這個可視范圍了。比如說全屏幕640*480的分辨率,原點在屏幕中心,那我們得到的可視區域為一個長方體,它如下圖(a)所示。

(圖3)
但是,這樣會帶來一些設備相關性而分散我們的注意力,所以不妨先向DirectX文檔學學,將project空間的可視范圍定義為x∈[-1,1], y∈[-1,1], z∈[0,1]的一個立方體(上圖b)。這實際上可看作一個中間坐標系,從這個坐標系到上面我們由視口得出的坐標系,只需要對三個軸向做一些放縮和平移操作即可。另外,這個project坐標系對clip操作來說,也是比較方便的。
-
推導過程
先從project空間的x正半軸看看我們的變換目標。
(圖4)
這個區域的上下邊界為y’=±1, 而圖2中的上下邊界為y = ± z * tan(fov/2),要實現圖
2到圖4的變換,我們有y’ = y * cot(fov/2) / z。這下完了,這是一個非線性變換,怎么用矩陣計算來完成呢?還好我們有w這個分量。注意到我們在做投影變換之前所進行的兩次坐標變換——world變換和view變換,他們只是一系列旋轉平移和縮放變換的疊加。仔細觀察這些變換矩陣,你會發現它們其實不會影響向量的w分量。換句話說,只要不是故意,一個w分量等于1的向量,再來到投影變換之前他的w分量仍舊等于1。好的,接下來我們讓w’= w*z, 新的w就記錄下了view空間中的z值。同時在y分量上我們退而求其次,只要做到y’ = y * cot(fov/2)。那么,在做完線性變換之后,我們再用向量的y除以w,就得到了我們想要的最終的y值。
x分量的變換可以如法炮制,只是fov要換一換。事實上,很多用以生成投影變換矩陣的函數都使用了aspect這個參數。這個參數給出了視平截體截面的縱橫比(這個比值應與view port的縱橫比相等,否則變換結果會失真)。如果我們按照慣例,定義aspect = size of X / size of Y。那么我們就可以繼續使用同一個fov而給出x分量的變換規則:x’ = x * cot(fov/2) / aspect。
現在只剩下z分量了。我們所渴望的變換應將z = Znear 變換到z = 0,將z = Zfar變換到z = 1。這個很簡單,但是等等,x, y最后還要除以w,你z怎能例外。既然也要除,那么z = Zfar 就不能映射到z = 1了。唔,先映射到z = Zfar試試。于是,有z’ = Zfar*(z-Znear)/(Zfar – Znear)。接下來,看看z’/z的性質。令f(z) = z’/z = Zfar*(z-Znear)/(z*(Zfar – Znear))。
則f’(z) = Zfar * Znear / ( z^2 * (Zfar –Znear )), 顯而易見f’(z) > 0。所以除了z = 0是一個奇點,函數f(z)是一個單調增的函數。因此,當Znear≤z≤Zfar時,f(Znear)≤f(z)≤f(Zfar),
即0≤f(z)≤1。
至此,我們可以給出投影變換的表達式了。
x’ = x*cot(fov/2)/aspect
y’ = y*cot(fov/2)
z’ = z*Zfar / ( Zfar – Znear ) – Zfar*Znear / ( Zfar – Znear )
w’ = z
以矩陣表示,則得到變換矩陣如下,
cot(fov/2)/aspect 0 0 0
0 cot(fov/2) 0 0
0 0 Zfar/(Zfar-Znear) 1
0 0 -Zfar*Znear/(Zfar-Znear) 0。
做完線性變換之后,再進行所謂的“歸一化”,即用w分量去除結果向量。
現在我們考慮一下這個變換對全view空間的點的作用。首先是x和y分量,明了地,當z>0時,一切都如我們所愿;當z<0時,x和y的符號在變換前后發生了變化,從圖象上來說,view空間中處于camera后面的圖形經過變換之后上下顛倒,左右交換;當z= 0 時,我們得到的結果是無窮大。這個結果在實際中是沒有意義的,以后我們得想辦法弄掉它。再來看z,
仍舊拿我們上面定義的f(z)函數來看,我們已經知道當z≥Zfar時,f(z)≥1;同時當z→+∞,f(z)→Zfar/(Zfar-Znear);當z→+0時,f(z)→-∞; z→-0時,f(z)→+∞; z→∞時,f(z)→Zfar/(Zfar-Znear).由此我們畫出f(z)的圖像。
(圖5)
由此圖可以看出當z≤0時,如果我們仍舊使用f(z)進行繪制會產生錯誤。所以我們會想需要clip操作——只要這個三角形有任意一個頂點經過變換后z值落在[Zfar/(Zfar-Znear), +∞]區間中,我們就毫不憐憫地拋棄她——因為無論如何,這個結果是錯的。那么萬一有三角形在view空間內橫跨了Znear到0的范圍,按我們想應該是畫不出來了。但是回想一下我們所看見過的DirectX程序,似乎從未看到過這種情況。有點奇怪,但是不得不先放放,稍后再說。
3.到DirectX中求證
在DirectX中拿一個用fov生成投影矩陣的函數來看。
D3DXMATRIX* D3DXMatrixPerspectiveFovLH( D3DXMATRIX* pOut, FLOAT fovy, FLOAT Aspect,
FLOAT zn, FLOAT zf )
這個函數恰好使用了我們剛才推導所使用的幾個參數,經過一些數據的代入計算之后,我們就會發現它所產生的矩陣就是我們計算出來的。看來,DirectX的思路和我們是一致的。好的,一個問題解決了,但一個新的問題接著產生——DirectX是怎么做clip的?我不知道,而且看樣子現在也知道不了,只能期待牛人相助或者是碰到一本好書了。
4.研究ps2lib的投影變換
其實投影變換都是一回事,但是PS2lib的函數怎么有點不一樣呢?仔細看看,原來我們的思路是先做“歸一化”,然后再做view port的放縮和平移,而PS2不是這樣——它把“歸一化”放在最后。接下來,我們就按這個順序試試。
先看縮放操作,把它和除z交換順序很方便,直接換便是了。于是我們記view port 的寬度為Vw,高度為Vh, Z緩存的最大值為Zmax, 最小值為Zmin則有
x’ = x * cot(fov/2)/aspect*(Vw/2)
y’ = y * cot(fov/2)*(Vh/2)
z’ = Zfar(z-Znear)/(Zfar-Znear) * (Zmax-Zmin);
w’ = z
再看平移部分,既然是要平移后再除,則必須平移原來的z倍,于是我們又記view port中心坐標為(Cx, Cy),就有
x’’ = x’ + z * Cx
y’’ = y’ + z * Cy
z’’ = z’ + z * Zmin
w’’ = w
好的,我們看看cot(fov/2)等于什么,從圖2看,實際上它就是D/(Vh/2),那么cot(fov/2)/aspect實際上就是D/(Vw/2)。但是,ps2在這上面耍了個小花招,它在view空間中的view port和project空間的view port可以不相等。最明顯的一點是,它在view空間中的view port的高度為480,但實際上它的輸出的y向分辨率只有224。也就是說,ps2想要輸出縱橫比等于電視機的圖像,就必須在y向上再加一個縮放。這個縮放在我們的變換中體現在哪呢?就在y’ = D/(Vh/2) * (Vhscr/2)中,注意到兩個Vh不相等(project空間中的Vh記成Vhscr),兩個值一運算就得到x’ = D*(224/480) = 0.466667D。這個0.4666667就是ps2lib函數參數ay的由來。同理,我們亦可得知ax一般應取值為1。那么,實際上ps2lib函數的scrz,ax, ay三個參數的作用等同于DirectX的象形函數的fov和aspect,在確定的規則下,他們可以相互轉換,得到性質完全相同的透視變換。至于這個規則,這里就不給出了。
轉回正題,有了上面的討論,我們就可以展開我們的變換表達式如下,
x’’ = x * scrz * ax + z * Cx
y’’ = x * scrz * ay + z * Cy
z’’ = z * (Zfar*Zmax–Znear*Zmin)/(Zfar – Znear)
–Zfar*Znear*(Zmax-Zmin)/(Zfar-Znear)
w’’ = z
z分量好像還有點不一樣,注意到一般ps2程序在z buffer的操作為greater&equal,而DirectX的操作為less&equal,就是說,z方向得做些變動——得把z=Znear映射到z’’ = Zmax,z=Zfar映射到z’’=Zmin。說變就變,我們馬上有
z’ = Zfar(z-Znear)/(Zfar-Znear)*(Zmin-Zmax)
z’’ = z’+Zmax
再次展開,得到z’’ = z * (Zfar*Zmin–Znear*Zmax)/(Zfar – Znear )
+ Zfar*Znear*(Zmax-Zmin)/(Zfar-Znear)
好了,用矩陣把這個變換寫出來,
scrz*ax 0 0 0
0 scrz*ay 0 0
Cx Cy (Zfar*Zmin–Znear*Zmax)/(Zfar – Znear ) 1
0 0 Zfar*Znear*(Zmax-Zmin)/(Zfar-Znear) 0,
這下就完全一樣了。下面的任務就是看看這個變換的性質。因為最后同樣要除以z,所以x,y分量上的情形的和原來我們推導的DirectX的投影變換是一樣的,區別在z分量上。來看新的f(z)函數,它的圖像為
(圖6)
5.結論
至此,我們已經完成了預定的目標。但是,將坐標變換完全掌握之后,為了做一個像樣的圖形程序,我們還有更多事情要做——至少在PS2上是這樣?。
|