轉(zhuǎn)自http://www.ibm.com/developerworks/cn/linux/l-ipc/part5/index2.html, 作者:鄭彥興
系統(tǒng)調(diào)用mmap()通過映射一個(gè)普通文件實(shí)現(xiàn)共享內(nèi)存。系統(tǒng)V則是通過映射特殊文件系統(tǒng)shm中的文件實(shí)現(xiàn)進(jìn)程間的共享內(nèi)存通信。也就是說,每個(gè)共享內(nèi)存區(qū)域?qū)?yīng)特殊文件系統(tǒng)shm中的一個(gè)文件(這是通過shmid_kernel結(jié)構(gòu)聯(lián)系起來(lái)的),后面還將闡述。
1、系統(tǒng)V共享內(nèi)存原理
進(jìn)程間需要共享的數(shù)據(jù)被放在一個(gè)叫做IPC共享內(nèi)存區(qū)域的地方,所有需要訪問該共享區(qū)域的進(jìn)程都要把該共享區(qū)域映射到本進(jìn)程的地址空間 中去。系統(tǒng)V共享內(nèi)存通過shmget獲得或創(chuàng)建一個(gè)IPC共享內(nèi)存區(qū)域,并返回相應(yīng)的標(biāo)識(shí)符。內(nèi)核在保證shmget獲得或創(chuàng)建一個(gè)共享內(nèi)存區(qū),初始化 該共享內(nèi)存區(qū)相應(yīng)的shmid_kernel結(jié)構(gòu)注同時(shí),還將在特殊文件系統(tǒng)shm中,創(chuàng)建并打開一個(gè)同名文件,并在內(nèi)存中建立起該文件的相應(yīng) dentry及inode結(jié)構(gòu),新打開的文件不屬于任何一個(gè)進(jìn)程(任何進(jìn)程都可以訪問該共享內(nèi)存區(qū))。所有這一切都是系統(tǒng)調(diào)用shmget完成的。
注:每一個(gè)共享內(nèi)存區(qū)都有一個(gè)控制結(jié)構(gòu)struct shmid_kernel,shmid_kernel是共享內(nèi)存區(qū)域中非常重要的一個(gè)數(shù)據(jù)結(jié)構(gòu),它是存儲(chǔ)管理和文件系統(tǒng)結(jié)合起來(lái)的橋梁,定義如下:
- struct shmid_kernel /* private to the kernel */
- {
- struct kern_ipc_perm shm_perm;
- struct file * shm_file;
- int id;
- unsigned long shm_nattch;
- unsigned long shm_segsz;
- time_t shm_atim;
- time_t shm_dtim;
- time_t shm_ctim;
- pid_t shm_cprid;
- pid_t shm_lprid;
- };
該結(jié)構(gòu)中最重要的一個(gè)域應(yīng)該是shm_file,它存儲(chǔ)了將被映射文件的地址。每個(gè)共享內(nèi)存區(qū)對(duì)象都對(duì)應(yīng)特殊文件系統(tǒng)shm中的一個(gè)文 件,一般情況下,特殊文件系統(tǒng)shm中的文件是不能用read()、write()等方法訪問的,當(dāng)采取共享內(nèi)存的方式把其中的文件映射到進(jìn)程地址空間 后,可直接采用訪問內(nèi)存的方式對(duì)其訪問。
這里我們采用[1]中的圖表給出與系統(tǒng)V共享內(nèi)存相關(guān)數(shù)據(jù)結(jié)構(gòu):
正如消息隊(duì)列和信號(hào)燈一樣,內(nèi)核通過數(shù)據(jù)結(jié)構(gòu)struct ipc_ids shm_ids維護(hù)系統(tǒng)中的所有共享內(nèi)存區(qū)域。上圖中的shm_ids.entries變量指向一個(gè)ipc_id結(jié)構(gòu)數(shù)組,而每個(gè)ipc_id結(jié)構(gòu)數(shù)組中 有個(gè)指向kern_ipc_perm結(jié)構(gòu)的指針。到這里讀者應(yīng)該很熟悉了,對(duì)于系統(tǒng)V共享內(nèi)存區(qū)來(lái)說,kern_ipc_perm的宿主是 shmid_kernel結(jié)構(gòu),shmid_kernel是用來(lái)描述一個(gè)共享內(nèi)存區(qū)域的,這樣內(nèi)核就能夠控制系統(tǒng)中所有的共享區(qū)域。同時(shí),在 shmid_kernel結(jié)構(gòu)的file類型指針shm_file指向文件系統(tǒng)shm中相應(yīng)的文件,這樣,共享內(nèi)存區(qū)域就與shm文件系統(tǒng)中的文件對(duì)應(yīng)起 來(lái)。
在創(chuàng)建了一個(gè)共享內(nèi)存區(qū)域后,還要將它映射到進(jìn)程地址空間,系統(tǒng)調(diào)用shmat()完成此項(xiàng)功能。由于在調(diào)用shmget()時(shí),已經(jīng) 創(chuàng)建了文件系統(tǒng)shm中的一個(gè)同名文件與共享內(nèi)存區(qū)域相對(duì)應(yīng),因此,調(diào)用shmat()的過程相當(dāng)于映射文件系統(tǒng)shm中的同名文件過程,原理與 mmap()大同小異。
2、系統(tǒng)V共享內(nèi)存API
對(duì)于系統(tǒng)V共享內(nèi)存,主要有以下幾個(gè)API:shmget()、shmat()、shmdt()及shmctl()。
- #include <sys/ipc.h>
- #include <sys/shm.h>
shmget()用來(lái)獲得共享內(nèi)存區(qū)域的ID,如果不存在指定的共享區(qū)域就創(chuàng)建相應(yīng)的區(qū)域。shmat()把共享內(nèi)存區(qū)域映射到調(diào)用進(jìn) 程的地址空間中去,這樣,進(jìn)程就可以方便地對(duì)共享區(qū)域進(jìn)行訪問操作。shmdt()調(diào)用用來(lái)解除進(jìn)程對(duì)共享內(nèi)存區(qū)域的映射。shmctl實(shí)現(xiàn)對(duì)共享內(nèi)存區(qū) 域的控制操作。這里我們不對(duì)這些系統(tǒng)調(diào)用作具體的介紹,讀者可參考相應(yīng)的手冊(cè)頁(yè)面,后面的范例中將給出它們的調(diào)用方法。
注:shmget的內(nèi)部實(shí)現(xiàn)包含了許多重要的系統(tǒng)V共享內(nèi)存機(jī)制;shmat在把共享內(nèi)存區(qū)域映射到進(jìn)程空間時(shí),并不真正改變進(jìn)程的頁(yè) 表。當(dāng)進(jìn)程第一次訪問內(nèi)存映射區(qū)域訪問時(shí),會(huì)因?yàn)闆]有物理頁(yè)表的分配而導(dǎo)致一個(gè)缺頁(yè)異常,然后內(nèi)核再根據(jù)相應(yīng)的存儲(chǔ)管理機(jī)制為共享內(nèi)存映射區(qū)域分配相應(yīng)的 頁(yè)表。
3、系統(tǒng)V共享內(nèi)存限制
在/proc/sys/kernel/目錄下,記錄著系統(tǒng)V共享內(nèi)存的一下限制,如一個(gè)共享內(nèi)存區(qū)的最大字節(jié)數(shù)shmmax,系統(tǒng)范圍內(nèi)最大共享內(nèi)存區(qū)標(biāo)識(shí)符數(shù)shmmni等,可以手工對(duì)其調(diào)整,但不推薦這樣做。
在[2]中,給出了這些限制的測(cè)試方法,不再贅述。
4、系統(tǒng)V共享內(nèi)存范例
本部分將給出系統(tǒng)V共享內(nèi)存API的使用方法,并對(duì)比分析系統(tǒng)V共享內(nèi)存機(jī)制與mmap()映射普通文件實(shí)現(xiàn)共享內(nèi)存之間的差異,首先給出兩個(gè)進(jìn)程通過系統(tǒng)V共享內(nèi)存通信的范例:
- /***** testwrite.c *******/
- #include <sys/ipc.h>
- #include <sys/shm.h>
- #include <sys/types.h>
- #include <unistd.h>
- typedef struct{
- char name[4];
- int age;
- } people;
- main(int argc, char** argv)
- {
- int shm_id,i;
- key_t key;
- char temp;
- people *p_map;
- char* name = "/dev/shm/myshm2";
- key = ftok(name,0);
- if(key==-1)
- perror("ftok error");
- shm_id=shmget(key,4096,IPC_CREAT);
- if(shm_id==-1)
- {
- perror("shmget error");
- return;
- }
- p_map=(people*)shmat(shm_id,NULL,0);
- temp='a';
- for(i = 0;i<10;i++)
- {
- temp+=1;
- memcpy((*(p_map+i)).name,&temp,1);
- (*(p_map+i)).age=20+i;
- }
- if(shmdt(p_map)==-1)
- perror(" detach error ");
- }
- /********** testread.c ************/
- #include <sys/ipc.h>
- #include <sys/shm.h>
- #include <sys/types.h>
- #include <unistd.h>
- typedef struct{
- char name[4];
- int age;
- } people;
- main(int argc, char** argv)
- {
- int shm_id,i;
- key_t key;
- people *p_map;
- char* name = "/dev/shm/myshm2";
- key = ftok(name,0);
- if(key == -1)
- perror("ftok error");
- shm_id = shmget(key,4096,IPC_CREAT);
- if(shm_id == -1)
- {
- perror("shmget error");
- return;
- }
- p_map = (people*)shmat(shm_id,NULL,0);
- for(i = 0;i<10;i++)
- {
- printf( "name:%s\n",(*(p_map+i)).name );
- printf( "age %d\n",(*(p_map+i)).age );
- }
- if(shmdt(p_map) == -1)
- perror(" detach error ");
- }
testwrite.c創(chuàng)建一個(gè)系統(tǒng)V共享內(nèi)存區(qū),并在其中寫入格式化數(shù)據(jù);testread.c訪問同一個(gè)系統(tǒng)V共享內(nèi)存區(qū),讀出其 中的格式化數(shù)據(jù)。分別把兩個(gè)程序編譯為testwrite及testread,先后執(zhí)行./testwrite及./testread 則./testread輸出結(jié)果如下:
- name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24;
- name: g age 25; name: h age 26; name: I age 27; name: j age 28; name: k age 29;
通過對(duì)試驗(yàn)結(jié)果分析,對(duì)比系統(tǒng)V與mmap()映射普通文件實(shí)現(xiàn)共享內(nèi)存通信,可以得出如下結(jié)論:
1、 系統(tǒng)V共享內(nèi)存中的數(shù)據(jù),從來(lái)不寫入到實(shí)際磁盤文件中去;而通過mmap()映射普通文件實(shí)現(xiàn)的共享內(nèi)存通信可以指定何時(shí)將數(shù)據(jù)寫入磁盤文件中。 注:前面講到,系統(tǒng)V共享內(nèi)存機(jī)制實(shí)際是通過映射特殊文件系統(tǒng)shm中的文件實(shí)現(xiàn)的,文件系統(tǒng)shm的安裝點(diǎn)在交換分區(qū)上,系統(tǒng)重新引導(dǎo)后,所有的內(nèi)容都丟失。
2、 系統(tǒng)V共享內(nèi)存是隨內(nèi)核持續(xù)的,即使所有訪問共享內(nèi)存的進(jìn)程都已經(jīng)正常終止,共享內(nèi)存區(qū)仍然存在(除非顯式刪除共享內(nèi)存),在內(nèi)核重新引導(dǎo)之前,對(duì)該共享內(nèi)存區(qū)域的任何改寫操作都將一直保留。
3、 通過調(diào)用mmap()映射普通文件進(jìn)行進(jìn)程間通信時(shí),一定要注意考慮進(jìn)程何時(shí)終止對(duì)通信的影響。而通過系統(tǒng)V共享內(nèi)存實(shí)現(xiàn)通信的進(jìn)程則不然。 注:這里沒有給出shmctl的使用范例,原理與消息隊(duì)列大同小異。
結(jié)論:
共享內(nèi)存允許兩個(gè)或多個(gè)進(jìn)程共享一給定的存儲(chǔ)區(qū),因?yàn)閿?shù)據(jù)不需要來(lái)回復(fù)制,所以是最快的一種進(jìn)程間通信機(jī)制。共享內(nèi)存可以通過 mmap()映射普通文件(特殊情況下還可以采用匿名映射)機(jī)制實(shí)現(xiàn),也可以通過系統(tǒng)V共享內(nèi)存機(jī)制實(shí)現(xiàn)。應(yīng)用接口和原理很簡(jiǎn)單,內(nèi)部機(jī)制復(fù)雜。為了實(shí)現(xiàn) 更安全通信,往往還與信號(hào)燈等同步機(jī)制共同使用。
共享內(nèi)存涉及到了存儲(chǔ)管理以及文件系統(tǒng)等方面的知識(shí),深入理解其內(nèi)部機(jī)制有一定的難度,關(guān)鍵還要緊緊抓住內(nèi)核使用的重要數(shù)據(jù)結(jié)構(gòu)。系統(tǒng) V共享內(nèi)存是以文件的形式組織在特殊文件系統(tǒng)shm中的。通過shmget可以創(chuàng)建或獲得共享內(nèi)存的標(biāo)識(shí)符。取得共享內(nèi)存標(biāo)識(shí)符后,要通過shmat將這 個(gè)內(nèi)存區(qū)映射到本進(jìn)程的虛擬地址空間。
參考資料
[1] Understanding the Linux Kernel, 2nd Edition, By Daniel P. Bovet, Marco Cesati , 對(duì)各主題闡述得重點(diǎn)突出,脈絡(luò)清晰。
[2] UNIX網(wǎng)絡(luò)編程第二卷:進(jìn)程間通信,作者:W.Richard Stevens,譯者:楊繼張,清華大學(xué)出版社。對(duì)mmap()有詳細(xì)闡述。
[3] Linux內(nèi)核源代碼情景分析(上),毛德操、胡希明著,浙江大學(xué)出版社,給出了mmap()相關(guān)的源代碼分析。
[4]shmget、shmat、shmctl、shmdt手冊(cè)