by mutecat@byhh 2007-09.20
最近一段時間在用c寫cgi程序,接觸了這兩個系統調用dup/dup2,碰到了一些
問題, 也解決了一些問題, 寫出來與大家分享,也方便以后參考:)
1. 文件描述符在內核中數據結構
在具體說dup/dup2之前, 我認為有必要先了解一下文件描述符在內核中的形態。
一個進程在此存在期間,會有一些文件被打開,從而會返回一些文件描述符,從shell
中運行一個進程,默認會有3個文件描述符存在(0、1、2), 0與進程的標準輸入相關聯,
1與進程的標準輸出相關聯,2與進程的標準錯誤輸出相關聯,一個進程當前有哪些打開
的文件描述符可以通過/proc/進程ID/fd目錄查看?!∠聢D可以清楚的說明問題:
進程表項
————————————————
fd標志 文件指針
_____________________
fd 0:|________|____________|————> 文件表
fd 1:|________|____________|
fd 2:|________|____________|
fd 3:|________|____________|
| ……. |
|_____________________|
圖1
文件表中包含:文件狀態標志、當前文件偏移量、v節點指針,這些不是本文討論的
重點,我們只需要知道每個打開的文件描述符(fd標志)在進程表中都有自己的文件表
項,由文件指針指向。
2. dup/dup2函數
APUE和man文檔都用一句話簡明的說出了這兩個函數的作用:復制一個現存的文件描述符。
#include <unistd.h>
int dup(int oldfd);
int dup2(int oldfd, int newfd);
從圖1來分析這個過程,當調用dup函數時,內核在進程中創建一個新的文件描述符,此
描述符是當前可用文件描述符的最小數值,這個文件描述符指向oldfd所擁有的文件表項。
進程表項
————————————————
fd標志 文件指針
_____________________
fd 0:|________|____________| ______
fd 1:|________|____________|—————-> | |
fd 2:|________|____________| |文件表|
fd 3:|________|____________|—————-> |______|
| ……. |
|_____________________|
圖2:調用dup后的示意圖
如圖2 所示,假如oldfd的值為1, 當前文件描述符的最小值為3, 那么新描述符3指向
描述符1所擁有的文件表項。
dup2和dup的區別就是可以用newfd參數指定新描述符的數值,如果newfd已經打開,則
先將其關閉。如果newfd等于oldfd,則dup2返回newfd, 而不關閉它。dup2函數返回的新
文件描述符同樣與參數oldfd共享同一文件表項。
APUE用另外一個種方法說明了這個問題:
實際上,調用dup(oldfd);
等效與
fcntl(oldfd, F_DUPFD, 0)
而調用dup2(oldfd, newfd);
等效與
close(oldfd);
fcntl(oldfd, F_DUPFD, newfd);
3. CGI中dup2
寫過CGI程序的人都清楚,當瀏覽器使用post方法提交表單數據時,CGI讀數據是從標準
輸入stdin, 寫數據是寫到標準輸出stdout(c語言利用printf函數)。按照我們正常的理
解,printf的輸出應該在終端顯示,原來CGI程序使用dup2函數將STDOUT_FINLENO(這個
宏在unitstd.h定義,為1)這個文件描述符重定向到了連接套接字。
dup2(connfd, STDOUT_FILENO);?。?實際情況還涉及到了管道,不是本文的重點*/
如第一節所說, 一個進程默認的文件描述符1(STDOUT_FILENO)是和標準輸出stdout相
關聯的,對于內核而言,所有打開的文件都通過文件描述符引用,而內核并不知道流的
存在(比如stdin、stdout),所以printf函數輸出到stdout的數據最后都寫到了文件描述
符1里面。至于文件描述符0、1、2與標準輸入、標準輸出、標準錯誤輸出相關聯,這
只是shell以及很多應用程序的慣例,而與內核無關。
用下面的流圖可以說明問題:(ps: 雖然不是流圖關系,但是還是有助于理解)
printf -> stdout -> STDOUT_FILENO(1) -> 終端(tty)
printf最后的輸出到了終端設備,文件描述符1指向當前的終端可以這么理解:
STDOUT_FILENO = open("/dev/tty", O_RDWR);
使用dup2之后STDOUT_FILENO不再指向終端設備, 而是指向connfd, 所以printf的
輸出最后寫到了connfd。是不是很優美?:)
4. 如何在CGI程序的fork子進程中還原STDOUT_FILENO
如果你能看到這里,感謝你的耐心, 我知道很多人可能感覺有點復雜, 其實
復雜的問題就是一個個小問題的集合。所以弄清楚每個小問題就OK了,第三節中
說道,STDOUT_FILENO被重定向到了connfd套接字, 有時候我們可能想在CGI程序
中調用后臺腳本執行,而這些腳本中難免會有一些輸入輸出, 我們知道fork之后,
子進程繼承了父進程的所有文件描述符,所以這些腳本的輸入輸出并不會如我們愿
輸出到終端設備,而是和connfd想關聯了,這個顯然會擾亂網頁的輸出。那么如何
恢復STDOUT_FILENO和終端關聯呢?
方法1:在dup2之前保存原有的文件描述符,然后恢復。
代碼實現如下:
savefd = dup(STDOUT_FILENO);?。?savefd此時指向終端*/
dup2(connfd, STDOUT_FILENO); /*STDOUT_FILENO(1) 被重新指向connfd*/
….. /*處理一些事情*/
dup2(savefd, STDOUT_FILENO); /*STDOUT_FILENO(1) 恢復指向savefd*/
很遺憾CGI程序無法使用這種方法, 因為dup2這些不是在CGI程序中完成的,而是在
web server中實現的,修改web server并不是個好主意。
方法2: 追本溯源,打開當前終端恢復STDOUT_FILENO。
分析第三節的流圖, STDOUT_FILENO是如何和終端關聯的? 我們重頭做一遍不就行
了, 代碼實現如下:
ttyfd = open("/dev/tty", O_RDWR);
dup2(ttyfd, STDOUT_FILENO);
close(ttyfd);
/dev/tty是程序運行所在的終端, 這個應該通過一種方法獲得。實踐證明這種方法
是可行的,但是我總感覺有些不妥,不知道為什么,可能一些潛在的問題還沒出現。
目前我就想到這兩種方法, 不知道你有什么好的想法? 有的話希望告訴我:)
終于收尾了,一早上過來寫,沒想到寫了兩個小時才寫完,好久沒有寫原創了,又重拾
了以前那美妙的感覺:)
-----------------------------------------------------------------------------------------------------------------------------
相信大部分在Unix/Linux下編程的程序員手頭上都有《Unix環境高級編程》(APUE)這本超級經典巨著。作者在該書中講解dup/dup2之前曾經講過“文件共享”,這對理解dup/dup2還是很有幫助的。這里做簡單摘錄以備在后面的分析中使用:
Stevens said:
(1) 每個進程在進程表中都有一個記錄項,每個記錄項中有一張打開文件描述符表,可將視為一個矢量,每個描述符占用一項。與每個文件描述符相關聯的是:
(a) 文件描述符標志。
(b) 指向一個文件表項的指針。
(2) 內核為所有打開文件維持一張文件表。每個文件表項包含:
(a) 文件狀態標志(讀、寫、增寫、同步、非阻塞等)。
(b) 當前文件位移量。
(c) 指向該文件v節點表項的指針。
圖示:
文件描述符表
------------
fd0 0 | p0 -------------> 文件表0 ---------> vnode0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------
fd2 2 | p2
------------
fd3 3 | p3
------------
... ...
... ...
------------
一、單個進程內的dup和dup2
假設進程A擁有一個已打開的文件描述符fd3,它的狀態如下:
進程A的文件描述符表(before dup2)
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------
fd2 2 | p2
------------
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
... ...
... ...
------------
經下面調用:
n_fd = dup2(fd3, STDOUT_FILENO);后進程狀態如下:
進程A的文件描述符表(after dup2)
------------
fd0 0 | p0
------------
n_fd 1 | p1 ------------
------------ \
fd2 2 | p2 \
------------ _\|
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
... ...
... ...
------------
解釋如下:
n_fd = dup2(fd3, STDOUT_FILENO)表示n_fd與fd3共享一個文件表項(它們的文件表指針指向同一個文件表項),n_fd在文件描述符表中的位置為 STDOUT_FILENO的位置,而原先的STDOUT_FILENO所指向的文件表項被關閉,我覺得上圖應該很清晰的反映出這點。按照上面的解釋我們就可以解釋CU中提出的一些問題:
(1) "dup2的第一個參數是不是必須為已打開的合法filedes?" -- 答案:必須。
(2) "dup2的第二個參數可以是任意合法范圍的filedes值么?" -- 答案:可以,在Unix其取值區間為[0,255]。
另外感覺理解dup2的一個好方法就是把fd看成一個結構體類型,就如上面圖形中畫的那樣,我們不妨把之定義為:
struct fd_t {
int index;
filelistitem *ptr;
};
然后dup2匹配index,修改ptr,完成dup2操作。
在學習dup2時總是碰到“重定向”一詞,上圖完成的就是一個“從標準輸出到文件的重定向”,經過dup2后進程A的任何目標為STDOUT_FILENO的I/O操作如printf等,其數據都將流入fd3所對應的文件中。下面是一個例子程序:
#define TESTSTR "Hello dup2\n"
int main() {
int fd3;
fd3 = open("testdup2.dat", 0666);
if (fd < 0) {
printf("open error\n");
exit(-1);
}
if (dup2(fd3, STDOUT_FILENO) < 0) {
printf("err in dup2\n");
}
printf(TESTSTR);
return 0;
}
其結果就是你在testdup2.dat中看到"Hello dup2"。
二、重定向后恢復
CU上有這樣一個帖子,就是如何在重定向后再恢復原來的狀態?首先大家都能想到要保存重定向前的文件描述符。那么如何來保存呢,象下面這樣行么?
int s_fd = STDOUT_FILENO;
int n_fd = dup2(fd3, STDOUT_FILENO);
還是這樣可以呢?
int s_fd = dup(STDOUT_FILENO);
int n_fd = dup2(fd3, STDOUT_FILENO);
這兩種方法的區別到底在哪呢?答案是第二種方案才是正確的,分析如下:按照第一種方法,我們僅僅在"表面上"保存了相當于fd_t(按照我前面說的理解方法)中的index,而在調用dup2之后,ptr所指向的文件表項由于計數值已為零而被關閉了,我們如果再調用dup2(s_fd, fd3)就會出錯(出錯原因上面有解釋)。而第二種方法我們首先做一下復制,復制后的狀態如下圖所示:
進程A的文件描述符表(after dup)
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------ /|
fd2 2 | p2 /
------------ /
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------ /
s_fd 4 | p4 ------/
------------
... ...
... ...
------------
調用dup2后狀態為:
進程A的文件描述符表(after dup2)
------------
fd0 0 | p0
------------
n_fd 1 | p1 ------------
------------ \
fd2 2 | p2 \
------------ _\|
fd3 3 | p3 -------------> 文件表2 ---------> vnode2
------------
s_fd 4 | p4 ------------->文件表1 ---------> vnode1
------------
... ...
... ...
------------
dup(fd)的語意是返回的新的文件描述符與fd共享一個文件表項。就如after dup圖中的s_fd和fd1共享文件表1一樣。
確定第二個方案后重定向后的恢復就很容易了,只需調用dup2(s_fd, n_fd);即可。下面是一個完整的例子程序:
#define TESTSTR "Hello dup2\n"
#define SIZEOFTESTSTR 11
int main() {
int fd3;
int s_fd;
int n_fd;
fd3 = open("testdup2.dat", 0666);
if (fd3 < 0) {
printf("open error\n");
exit(-1);
}
/* 復制標準輸出描述符 */
s_fd = dup(STDOUT_FILENO);
if (s_fd < 0) {
printf("err in dup\n");
}
/* 重定向標準輸出到文件 */
n_fd = dup2(fd3, STDOUT_FILENO);
if (n_fd < 0) {
printf("err in dup2\n");
}
write(STDOUT_FILENO, TESTSTR, SIZEOFTESTSTR); /* 寫入testdup2.dat中 */
/* 重定向恢復標準輸出 */
if (dup2(s_fd, n_fd) < 0) {
printf("err in dup2\n");
}
write(STDOUT_FILENO, TESTSTR, SIZEOFTESTSTR); /* 輸出到屏幕上 */
return 0;
}
注意這里我在輸出數據的時候我是用了不帶緩沖的write庫函數,如果使用帶緩沖區的printf,則最終結果為屏幕上輸出兩行"Hello dup2",而文件testdup2.dat中為空,原因就是緩沖區作怪,由于最終的目標是屏幕,所以程序最后將緩沖區的內容都輸出到屏幕。
三、父子進程間的dup/dup2
由fork調用得到的子進程和父進程的相同文件描述符共享同一文件表項,如下圖所示:
父進程A的文件描述符表
------------
fd0 0 | p0
------------
fd1 1 | p1 -------------> 文件表1 ---------> vnode1
------------ /|\
fd2 2 | p2 |
------------ |
|
子進程B的文件描述符表 |
------------ |
fd0 0 | p0 |
------------ |
fd1 1 | p1 ---------------------|
------------
fd2 2 | p2
------------
所以恰當的利用dup2和dup可以在父子進程之間建立一條“溝通的橋梁”。這里不詳述。
四、小結
靈活的利用dup/dup2可以給你帶來很多強大的功能,花了一些時間總結出上面那么多,不知道自己理解的是否透徹,只能在以后的實踐中慢慢探索了。
文章出處:飛諾網(www.firnow.com):http://dev.firnow.com/course/6_system/linux/Linuxjs/2008716/133222.html