轉(zhuǎn)自https://www.ibm.com/developerworks/cn/linux/l-ipc/part6/, 作者:鄭彥興
一個套接口可以看作是進程間通信的端點(endpoint),每個套接口的名字都是唯一的(唯一的含義是不言而喻的),其他進程可以發(fā)現(xiàn)、連接并且 與之通信。通信域用來說明套接口通信的協(xié)議,不同的通信域有不同的通信協(xié)議以及套接口的地址結(jié)構(gòu)等等,因此,創(chuàng)建一個套接口時,要指明它的通信域。比較常 見的是unix域套接口(采用套接口機制實現(xiàn)單機內(nèi)的進程間通信)及網(wǎng)際通信域。
1、背景知識
linux目前的網(wǎng)絡內(nèi)核代碼主要基于伯克利的BSD的unix實現(xiàn),整個結(jié)構(gòu)采用的是一種面向?qū)ο蟮姆謱訖C制。層與層之間有嚴格的接口定義。這里我們引用[1]中的一個圖表來描述linux支持的一些通信協(xié)議:
我們這里只關心IPS,即因特網(wǎng)協(xié)議族,也就是通常所說的TCP/IP網(wǎng)絡。我們這里假設讀者具有網(wǎng)絡方面的一些背景知識,如了解網(wǎng)絡的分層結(jié)構(gòu),通常所說的7層結(jié)構(gòu);了解IP地址以及路由的一些基本知識。
目前l(fā)inux網(wǎng)絡API是基于BSD套接口的(系統(tǒng)V提供基于流I/O子系統(tǒng)的用戶接口,但是linux內(nèi)核目前不支持流I/O子系 統(tǒng))。套接口可以說是網(wǎng)絡編程中一個非常重要的概念,linux以文件的形式實現(xiàn)套接口,與套接口相應的文件屬于sockfs特殊文件系統(tǒng),創(chuàng)建一個套接 口就是在sockfs中創(chuàng)建一個特殊文件,并建立起為實現(xiàn)套接口功能的相關數(shù)據(jù)結(jié)構(gòu)。換句話說,對每一個新創(chuàng)建的BSD套接口,linux內(nèi)核都將在 sockfs特殊文件系統(tǒng)中創(chuàng)建一個新的inode。描述套接口的數(shù)據(jù)結(jié)構(gòu)是socket,將在后面給出。
2、重要數(shù)據(jù)結(jié)構(gòu)
下面是在網(wǎng)絡編程中比較重要的幾個數(shù)據(jù)結(jié)構(gòu),讀者可以在后面介紹編程API部分再回過頭來了解它們。
(1)表示套接口的數(shù)據(jù)結(jié)構(gòu)struct socket
套接口是由socket數(shù)據(jù)結(jié)構(gòu)代表的,形式如下:
- struct socket
- {
- socket_state state; /* 指明套接口的連接狀態(tài),一個套接口的連接狀態(tài)可以有以下幾種
- 套接口是空閑的,還沒有進行相應的端口及地址的綁定;還沒有連接;正在連接中;已經(jīng)連接;正在解除連接。 */
- unsigned long flags;
- struct proto_ops ops; /* 指明可對套接口進行的各種操作 */
- struct inode inode; /* 指向sockfs文件系統(tǒng)中的相應inode */
- struct fasync_struct *fasync_list; /* Asynchronous wake up list */
- struct file *file; /* 指向sockfs文件系統(tǒng)中的相應文件 */
- struct sock sk; /* 任何協(xié)議族都有其特定的套接口特性,該域就指向特定協(xié)議族的套接口對
- 象。 */
- wait_queue_head_t wait;
- short type;
- unsigned char passcred;
- };
(2)描述套接口通用地址的數(shù)據(jù)結(jié)構(gòu)struct sockaddr
由于歷史的緣故,在bind、connect等系統(tǒng)調(diào)用中,特定于協(xié)議的套接口地址結(jié)構(gòu)指針都要強制轉(zhuǎn)換成該通用的套接口地址結(jié)構(gòu)指針。結(jié)構(gòu)形式如下:
- struct sockaddr {
- sa_family_t sa_family; /* address family, AF_xxx */
- char sa_data[14]; /* 14 bytes of protocol address */
- };
(3)描述因特網(wǎng)地址結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)struct sockaddr_in(這里局限于IP4):
- struct sockaddr_in
- {
- __SOCKADDR_COMMON (sin_); /* 描述協(xié)議族 */
- in_port_t sin_port; /* 端口號 */
- struct in_addr sin_addr; /* 因特網(wǎng)地址 */
- /* Pad to size of `struct sockaddr'. */
- unsigned char sin_zero[sizeof (struct sockaddr) -
- __SOCKADDR_COMMON_SIZE -
- sizeof (in_port_t) -
- sizeof (struct in_addr)];
- };
一般來說,讀者最關心的是前三個域,即通信協(xié)議、端口號及地址。
3、套接口編程的幾個重要步驟:
(1)創(chuàng)建套接口,由系統(tǒng)調(diào)用socket實現(xiàn):
int socket( int domain, int type, int ptotocol); |
參數(shù)domain指明通信域,如PF_UNIX(unix域),PF_INET(IPv4),PF_INET6(IPv6) 等;type指明通信類型,如SOCK_STREAM(面向連接方式)、SOCK_DGRAM(非面向連接方式)等。一般來說,參數(shù)protocol可設 置為0,除非用在原始套接口上(原始套接口有一些特殊功能,后面還將介紹)。
注:socket()系統(tǒng)調(diào)用為套接口在sockfs文件系統(tǒng)中分配一個新的文件和dentry對 象,并通過文件描述符把它們與調(diào)用進程聯(lián)系起來。進程可以像訪問一個已經(jīng)打開的文件一樣訪問套接口在sockfs中的對應文件。但進程絕不能調(diào)用 open()來訪問該文件(sockfs文件系統(tǒng)沒有可視安裝點,其中的文件永遠不會出現(xiàn)在系統(tǒng)目錄樹上),當套接口被關閉時,內(nèi)核會自動刪除 sockfs中的inodes。
(2)綁定地址
根據(jù)傳輸層協(xié)議(TCP、UDP)的不同,客戶機及服務器的處理方式也有很大不同。但是,不管通信雙方使用何種傳輸協(xié)議,都需要一種標識自己的機制。
通信雙方一般由兩個方面標識:地址和端口號(通常,一個IP地址和一個端口號常常被稱為一個套接口)。根據(jù)地址可以尋址到主機,根據(jù)端口號則可以尋址到主機提供特定服務的進程,實際上,一個特定的端口號代表了一個提供特定服務的進程。
對于使用TCP傳輸協(xié)議通信方式來說,通信雙方需要給自己綁定一個唯一標識自己的套接口,以便建立連接;對于使用UDP傳輸協(xié)議,只需 要服務器綁定一個標識自己的套接口就可以了,用戶則不需要綁定(在需要時,如調(diào)用connect時[注1],內(nèi)核會自動分配一個本地地址和本地端口號)。 綁定操作由系統(tǒng)調(diào)用bind()完成:
int bind( int sockfd, const struct sockaddr * my_addr, socklen_t my_addr_len) |
第二個參數(shù)對于Ipv4來說,實際上需要填充的結(jié)構(gòu)是struct sockaddr_in,前面已經(jīng)介紹了該結(jié)構(gòu)。這里只想強調(diào)該結(jié)構(gòu)的第一個域,它表明該套接口使用的通信協(xié)議,如AF_INET。聯(lián)系socket系統(tǒng) 調(diào)用的第一個參數(shù),讀者可能會想到PF_INET與AF_INET究竟有什么不同?實際上,原來的想法是每個通信域(如PF_INET)可能對應多個協(xié)議 (如AF_INET),而事實上支持多個協(xié)議的通信域一直沒有實現(xiàn)。因此,在linux內(nèi)核中,AF_***與PF_***被定義為同一個常數(shù),因此,在 編程時可以不加區(qū)分地使用他們。
注1:在采用非面向連接通信方式時,也會用到connect()調(diào)用,不過與在面向連接中的 connect()調(diào)用有本質(zhì)的區(qū)別:在非面向連接通信中,connect調(diào)用只是先設置一下對方的地址,內(nèi)核為本地套接口記下對方的地址,然后采用 send()來發(fā)送數(shù)據(jù),這樣避免每次發(fā)送時都要提供相同的目的地址。其中的connect()調(diào)用不涉及握手過程;而在面向連接的通信方式 中,connect()要完成一個嚴格的握手過程。
(3)請求建立連接(由TCP客戶發(fā)起)
對于采用面向連接的傳輸協(xié)議TCP實現(xiàn)通信來說,一個比較重要的步驟就是通信雙方建立連接(如果采用udp傳輸協(xié)議則不需要),由系統(tǒng)調(diào)用connect()完成:
int connect( int sockfd, const struct sockaddr * servaddr, socklen_t addrlen) |
第一個參數(shù)為本地調(diào)用socket后返回的描述符,第二個參數(shù)為服務器的地址結(jié)構(gòu)指針。connect()向指定的套接口請求建立連接。
注:與connect()相對應,在服務器端,通過系統(tǒng)調(diào)用listen(),指定服務器端的套接口為監(jiān)聽套接口,監(jiān)聽每一個向服務器套接口發(fā)出的連接請求,并通過握手機制建立連接。內(nèi)核為listen()維護兩個隊列:已完成連接隊列和未完成連接隊列。
(4)接受連接請求(由TCP服務器端發(fā)起)
服務器端通過監(jiān)聽套接口,為所有連接請求建立了兩個隊列:已完成連接隊列和未完成連接隊列(每個監(jiān)聽套接口都對應這樣兩個隊列,當然, 一般服務器只有一個監(jiān)聽套接口)。通過accept()調(diào)用,服務器將在監(jiān)聽套接口的已連接隊列頭中,返回用于代表當前連接的套接口描述字。
int accept( int sockfd, struct sockaddr * cliaddr, socklen_t * addrlen) |
第一個參數(shù)指明哪個監(jiān)聽套接口,一般是由listen()系統(tǒng)調(diào)用指定的(由于每個監(jiān)聽套接口都對應已連接和未連接兩個隊列,因此它的 內(nèi)部機制實質(zhì)是通過sockfd指定在哪個已連接隊列頭中返回一個用于當前客戶的連接,如果相應的已連接隊列為空,accept進入睡眠)。第二個參數(shù)指 明客戶的地址結(jié)構(gòu),如果對客戶的身份不感興趣,可指定其為空。
注:對于采用TCP傳輸協(xié)議進行通信的服務器和客戶機來說,一定要經(jīng)過客戶請求建立連接,服務器接受連接請求這一過程;而對采用UDP傳輸協(xié)議的通信雙方則不需要這一步驟。
(5)通信
客戶機可以通過套接口接收服務器傳過來的數(shù)據(jù),也可以通過套接口向服務器發(fā)送數(shù)據(jù)。前面所有的準備工作(創(chuàng)建套接口、綁定等操作)都是為這一步驟準備的。
常用的從套接口中接收數(shù)據(jù)的調(diào)用有:recv、recvfrom、recvmsg等,常用的向套接口中發(fā)送數(shù)據(jù)的調(diào)用有send、sendto、sendmsg等。
- int recv(int s, void *
- buf, size_t
- len, int
- flags)
- int recvfrom(int s, void *
- buf, size_t
- len, int
- flags, struct sockaddr *
- from, socklen_t *
- fromlen)
- int recvmsg(int s, struct msghdr *
- msg, int
- flags)
- int send(int s,const void *
- msg, size_t
- len, int
- flags)
- int sendto(int s, const void *
- msg, size_t
- len, int
- flags const struct sockaddr *
- to, socklen_t
- tolen)
- int sendmsg(int s, const struct msghdr *
- msg, int
- flags)
這里不再對這些調(diào)用作具體的說明,只想強調(diào)一下,recvfrom()以及recvmsg()可用于面向連接的套接口,也可用于面向非 連接的套接口;而recv()一般用于面向連接的套接口。另外,在調(diào)用了connect()之后,就應給調(diào)用send()而不是sendto()了,因為 調(diào)用了connect之后,目標就已經(jīng)確定了。
前面講到,socket()系統(tǒng)調(diào)用返回套接口描述字,實際上它是一個文件描述符。所以,可以對套接口進行通常的讀寫操作,即使用 read()及write()方法。在實際應用中,由于面向連接的通信(采用TCP傳輸協(xié)議)是可靠的,同時又保證字節(jié)流原有的順序,所以更適合用 read及write方法。而非面向連接的通信(采用UDP傳輸協(xié)議)是不可靠的,字節(jié)流也不一定保持原有的順序,所以一般不宜用read及write方 法。
(6)通信的最后一步是關閉套接口
由close()來完成此項功能,它唯一的參數(shù)是套接口描述字,不再贅述。
4、典型調(diào)用代碼:
到處可以發(fā)現(xiàn)基于套接口的客戶機及服務器程序,這里不再給出完整的范例代碼,只是給出它們的典型調(diào)用代碼,并給出簡要說明。
(1)典型的TCP服務器代碼:
- ... ...
- int listen_fd, connect_fd;
- struct sockaddr_in serv_addr, client_addr;
- ... ...
- listen_fd = socket ( PF_INET, SOCK_STREAM, 0 );
- /* 創(chuàng)建網(wǎng)際Ipv4域的(由PF_INET指定)面向連接的(由SOCK_STREAM指定,
- 如果創(chuàng)建非面向連接的套接口則指定為SOCK_DGRAM)
- 的套接口。第三個參數(shù)0表示由內(nèi)核確定缺省的傳輸協(xié)議,
- 對于本例,由于創(chuàng)建的是可靠的面向連接的基于流的套接口,
- 內(nèi)核將選擇TCP作為本套接口的傳輸協(xié)議) */
- bzero( &serv_addr, sizeof(serv_addr) );
- serv_addr.sin_family = AF_INET ; /* 指明通信協(xié)議族 */
- serv_addr.sin_port = htons( 49152 ) ; /* 分配端口號 */
- inet_pton(AF_INET, " 192.168.0.11", &serv_addr.sin_sddr) ;
- /* 分配地址,把點分十進制IPv4地址轉(zhuǎn)化為32位二進制Ipv4地址。 */
- bind( listen_fd, (struct sockaddr*) serv_addr, sizeof ( struct sockaddr_in )) ;
- /* 實現(xiàn)綁定操作 */
- listen( listen_fd, max_num) ;
- /* 套接口進入偵聽狀態(tài),max_num規(guī)定了內(nèi)核為此套接口排隊的最大連接個數(shù) */
- for( ; ; ) {
- ... ...
- connect_fd = accept( listen_fd, (struct sockaddr*)client_addr, &len ) ; /* 獲得連接fd. */
- ... ... /* 發(fā)送和接收數(shù)據(jù) */
- }
注:端口號的分配是有一些慣例的,不同的端口號對應不同的服務或進程。比如一般都把端口號21分配給 FTP服務器的TCP/IP實現(xiàn)。端口號一般分為3段,0-1023(受限的眾所周知的端口,由分配數(shù)值的權(quán)威機構(gòu)IANA管 理),1024-49151(可以從IANA那里申請注冊的端口),49152-65535(臨時端口,這就是為什么代碼中的端口號為49152)。
對于多字節(jié)整數(shù)在內(nèi)存中有兩種存儲方式:一種是低字節(jié)在前,高字節(jié)在后,這樣的存儲順序被稱為低端字節(jié)序(little- endian);高字節(jié)在前,低字節(jié)在后的存儲順序則被稱為高端字節(jié)序(big-endian)。網(wǎng)絡協(xié)議在處理多字節(jié)整數(shù)時,采用的是高端字節(jié)序,而不 同的主機可能采用不同的字節(jié)序。因此在編程時一定要考慮主機字節(jié)序與網(wǎng)絡字節(jié)序間的相互轉(zhuǎn)換。這就是程序中使用htons函數(shù)的原因,它返回網(wǎng)絡字節(jié)序的 整數(shù)。
(2)典型的TCP客戶代碼:
- ... ...
- int socket_fd;
- struct sockaddr_in serv_addr ;
- ... ...
- socket_fd = socket ( PF_INET, SOCK_STREAM, 0 );
- bzero( &serv_addr, sizeof(serv_addr) );
- serv_addr.sin_family = AF_INET ; /* 指明通信協(xié)議族 */
- serv_addr.sin_port = htons( 49152 ) ; /* 分配端口號 */
- inet_pton(AF_INET, " 192.168.0.11", &serv_addr.sin_sddr) ;
- /* 分配地址,把點分十進制IPv4地址轉(zhuǎn)化為32位二進制Ipv4地址。 */
- connect( socket_fd, (struct sockaddr*)serv_addr, sizeof( serv_addr ) ) ; /* 向服務器發(fā)起連接請求 */
- ... ... /* 發(fā)送和接收數(shù)據(jù) */
- ... ...
對比兩段代碼可以看出,許多調(diào)用是服務器或客戶機所特有的。另外,對于非面向連接的傳輸協(xié)議,代碼還有簡單些,沒有連接的發(fā)起請求和接收請求部分。
5、網(wǎng)絡編程中的其他重要概念
下面列出了網(wǎng)絡編程中的其他重要概念,基本上都是給出這些概念能夠?qū)崿F(xiàn)的功能,讀者在編程過程中如果需要這些功能,可查閱相關概念。
(1)、I/O復用的概念
I/O復用提供一種能力,這種能力使得當一個I/O條件滿足時,進程能夠及時得到這個信息。I/O復用一般應用在進程需要處理多個描述 字的場合。它的一個優(yōu)勢在于,進程不是阻塞在真正的I/O調(diào)用上,而是阻塞在select()調(diào)用上,select()可以同時處理多個描述字,如果它所 處理的所有描述字的I/O都沒有處于準備好的狀態(tài),那么將阻塞;如果有一個或多個描述字I/O處于準備好狀態(tài),則select()不阻塞,同時會根據(jù)準備 好的特定描述字采取相應的I/O操作。
(2)、Unix通信域
前面主要介紹的是PF_INET通信域,實現(xiàn)網(wǎng)際間的進程間通信。基于Unix通信域(調(diào)用socket時指定通信域為 PF_LOCAL即可)的套接口可以實現(xiàn)單機之間的進程間通信。采用Unix通信域套接口有幾個好處:Unix通信域套接口通常是TCP套接口速度的兩 倍;另一個好處是,通過Unix通信域套接口可以實現(xiàn)在進程間傳遞描述字。所有可用描述字描述的對象,如文件、管道、有名管道及套接口等,在我們以某種方 式得到該對象的描述字后,都可以通過基于Unix域的套接口來實現(xiàn)對描述字的傳遞。接收進程收到的描述字值不一定與發(fā)送進程傳遞的值一致(描述字是特定于 進程的),但是特們指向內(nèi)核文件表中相同的項。
(3)、原始套接口
原始套接口提供一般套接口所不提供的功能:
- 原始套接口可以讀寫一些用于控制的控制協(xié)議分組,如ICMPv4等,進而可實現(xiàn)一些特殊功能。
- 原始套接口可以讀寫特殊的IPv4數(shù)據(jù)包。內(nèi)核一般只處理幾個特定協(xié)議字段的數(shù)據(jù)包,那么一些需要不同協(xié)議字段的數(shù)據(jù)包就需要通過原始套接口對其進行讀寫;
- 通過原始套接口可以構(gòu)造自己的Ipv4頭部,也是比較有意思的一點。
創(chuàng)建原始套接口需要root權(quán)限。
(4)、對數(shù)據(jù)鏈路層的訪問
對數(shù)據(jù)鏈路層的訪問,使得用戶可以偵聽本地電纜上的所有分組,而不需要使用任何特殊的硬件設備,在linux下讀取數(shù)據(jù)鏈路層分組需要創(chuàng)建SOCK_PACKET類型的套接口,并需要有root權(quán)限。
(5)、帶外數(shù)據(jù)(out-of-band data)
如果有一些重要信息要立刻通過套接口發(fā)送(不經(jīng)過排隊),請查閱與帶外數(shù)據(jù)相關的文獻。
(6)、多播
linux內(nèi)核支持多播,但是在默認狀態(tài)下,多數(shù)linux系統(tǒng)都關閉了對多播的支持。因此,為了實現(xiàn)多播,可能需要重新配置并編譯內(nèi)核。具體請參考[4]及[2]。
結(jié)論:linux套接口編程的內(nèi)容可以說是極大豐富,同時它涉及到許多的網(wǎng)絡背景知識,有興趣的讀者可在[2]中找到比較系統(tǒng)而全面的介紹。
至此,本專題系列(linux環(huán)境進程間通信)全部結(jié)束了。實際上,進程間通信的一般意義通常指的是消息隊列、信號燈和共享內(nèi)存,可以是posix的,也可以是SYS v的。本系列同時介紹了管道、有名管道、信號以及套接口等,是更為一般意義上的進程間通信機制。
參考資料
- Understanding the Linux Kernel, 2nd Edition, By Daniel P. Bovet, Marco Cesati , 對各主題闡述得重點突出,脈絡清晰。網(wǎng)絡部分分析集中在TCP/IP協(xié)議棧的數(shù)據(jù)連路層、網(wǎng)絡層以及傳輸層。
- UNIX 網(wǎng)絡編程第一卷:套接口API和X/Open傳輸接口API,作者:W.Richard Stevens,譯者:楊繼張,清華大學出版社。不僅對套接口網(wǎng)絡編程有極好的描述,而且極為詳盡的闡述了相關的網(wǎng)絡背景知識。不論是入門還是深入研究, 都是不可多得的好資料。
- Linux內(nèi)核源代碼情景分析(下),毛德操、胡希明著,浙江大學出版社,給出了unix域套接口部分的內(nèi)核代碼分析。
- GNU/Linux編程指南,入門、應用、精通,第二版,Kurt Wall等著,張輝譯