轉(zhuǎn)載請注明 出自:http://m.shnenglu.com/mysileng/archive/2013/01/11/197202.html
討論兩個由sigchld信號引起的血案問題,討論的環(huán)境是服務(wù)端的并發(fā)程序。我們先把最原始的服務(wù)器端并發(fā)程序模型貼出來:

以上是服務(wù)器端程序,我們先不看被注視掉的部分,程序?qū)τ诿恳粋€accept的TCP連接會產(chǎn)生一個子進(jìn)程,交給子進(jìn)程去處理。而子進(jìn)程其實(shí)并不做什么,直接睡眠3秒就結(jié)束。可以想象這樣當(dāng)子進(jìn)程exit以后,會給父進(jìn)程發(fā)sigchld信號,通知父進(jìn)程自己掛了。但是在我們的父進(jìn)程中,我們對于sigchld信號采用默認(rèn)處置(忽略)。結(jié)果可想而知就是來一個連接,就產(chǎn)生一個僵死進(jìn)程。我們運(yùn)行程序3次,看看是否會得到3個僵死進(jìn)程。
服務(wù)器端運(yùn)行程序,被某客戶端連接3次:

客戶端運(yùn)行程序執(zhí)行3次,并查看進(jìn)程情況:

首先聲明,我們用客戶端可以查看服務(wù)器端進(jìn)程的原因是,我們把客戶端和服務(wù)端放在了一臺電腦上進(jìn)程本次試驗(yàn)。我們并不關(guān)心cli客戶端的具體實(shí)現(xiàn),因?yàn)榉?wù)器并不從客戶端獲取任何信息。
從結(jié)果可知,果然服務(wù)端果斷產(chǎn)生了3個僵死進(jìn)程。接下來我們加上對sigchld的處理程序。但加上以后也將產(chǎn)生我們的第一個血案:

白色為客戶端,黑為服務(wù)端:

可見,僵死進(jìn)程的問題已經(jīng)解決,但還有個潛在的隱藏危機(jī)。
PHOSIX對于向accept這種慢速的系統(tǒng)系統(tǒng)調(diào)用有一個基本規(guī)則(apue,unp都有涉及):當(dāng)進(jìn)程阻塞于某個慢系統(tǒng)調(diào)用的時候(我們的程序是accept),當(dāng)進(jìn)程捕捉到某個信號(我們的程序是sigchld),并從信號的處理函數(shù)返回時(我的程序是deal函數(shù)),進(jìn)程不再阻塞與之前的慢速系統(tǒng)調(diào)用,而是返回一個EINTER錯誤。
對于上面的這個規(guī)則,各個操作系統(tǒng)的對待方式是不同的。有的操作系統(tǒng)返回EINTER以后,就會自動重啟之前的慢速系統(tǒng)調(diào)用而繼續(xù),有些則不會自動重啟。對我們實(shí)驗(yàn)程序的這個操作系統(tǒng)環(huán)境(centos5.5),從結(jié)果來看,因?yàn)椴]打印"accept error"并退出程序,我猜想,centos5.5應(yīng)該是會自動重啟慢速系統(tǒng)調(diào)用的。也就是說在這里我因?yàn)椴僮飨到y(tǒng)的優(yōu)秀,躲過一劫(躲過第一次血案)。但為了可移植性我們應(yīng)該改進(jìn)程序?yàn)橐韵聦?shí)現(xiàn):

我的改動主要集中在對accpt的錯誤處理里面。接下來闡述另外一個血案
----------------------------------------------------------------------------
我們繼續(xù)沿用上述的最后一次服務(wù)端程序來進(jìn)行接下來的實(shí)驗(yàn),現(xiàn)在我們編寫一個客戶端程序,客戶端一次性跟服務(wù)端申請5個連接。客戶端的程序如下:

整個程序的構(gòu)架大概如下:

這里客戶端最需要注意的是程序的最后一句并不是一個個close所有的套接字描述符,而是調(diào)用exit程序結(jié)束進(jìn)程。根據(jù)APUE描述,exit系統(tǒng)調(diào)用會執(zhí)行關(guān)閉該進(jìn)程所有描述符的操作,也就是說客戶端的所有描述符,包括套接字描述符也被幾乎同時關(guān)閉了。也就是說服務(wù)端的由監(jiān)聽進(jìn)程產(chǎn)生的所有處理子進(jìn)程也會在幾乎同時死掉。那么就會在幾乎同時給父進(jìn)程發(fā)送sigchld信號。情況如下:

血案即將發(fā)生。請注意,根據(jù)APUE對于信號在1-31之內(nèi)的的信號,因?yàn)闅v史原因,是不可靠信號,也就說,SIGCHLD信號在被遞送到正在阻塞SIGCHLD信號的進(jìn)程時,是不會排隊的,而是會被系統(tǒng)壓縮。上述問題就是當(dāng)5個sigchld信號幾乎同時到達(dá)父進(jìn)程時,只有第一個能順利被父進(jìn)程的信號處理函數(shù)處理。又因?yàn)楸籹ignal/sigaction設(shè)置的信號處理函數(shù)會自動阻塞正在處理的信號這一原則,接下來沒被處理的4個sigchld信號,被排在了父進(jìn)程門口。不巧的是,sigchld又是不可靠信號,結(jié)果是4個sigchld被壓縮成一個sigchld信號。這就導(dǎo)致信號的丟失。也因?yàn)閬G失了3個sigchld信號,就會產(chǎn)生3個僵尸進(jìn)程。你說這是不是一個名符其實(shí)的血案。接下來我們實(shí)驗(yàn)一下:

可以清晰的看到結(jié)果如預(yù)期,所有出現(xiàn)信號丟失導(dǎo)致3個僵死進(jìn)程。那么怎么解決這個問題呢?~。。。。