最近我負(fù)責(zé)一個IM項目的開發(fā),服務(wù)端和客戶端采用TCP協(xié)議連接。服務(wù)端采用C#開發(fā),客戶端采用Delphi開發(fā)。在服務(wù)端開發(fā)中我碰到了各種各樣的網(wǎng)絡(luò)異常斷開現(xiàn)象。在處理這些異常的時候有了一些心得,現(xiàn)在寫出來和大家分享一下。
那網(wǎng)絡(luò)異常斷開原因主要有那些呢?歸納起來主要有以下兩種:
1、客戶端程序異常。
對于這種情況,我們很好處理,因為客戶端程序異常退出會在服務(wù)端引發(fā)ConnectionReset的Socket異常(就是WinSock2中的10054異常)。只要在服務(wù)端處理這個異常就可以了。
2、網(wǎng)絡(luò)鏈路異常。
如:網(wǎng)線拔出、交換機(jī)掉電、客戶端機(jī)器掉電。當(dāng)出現(xiàn)這些情況的時候服務(wù)端不會出現(xiàn)任何異常。這樣的話上面的代碼就不能處理這種情況了。對于這種情況在MSDN里面是這樣處理的,我在這里貼出MSDN的原文:
如果您需要確定連接的當(dāng)前狀態(tài),請進(jìn)行非阻止、零字節(jié)的 Send 調(diào)用。如果該調(diào)用成功返回或引發(fā) WAEWOULDBLOCK 錯誤代碼 (10035),則該套接字仍然處于連接狀態(tài);否則,該套接字不再處于連接狀態(tài)。
但是我在實際應(yīng)用中發(fā)現(xiàn),MSDN說的這種處理方法在很多時候根本無效,無法檢測出網(wǎng)絡(luò)已經(jīng)異常斷開了。那我們該怎么辦呢?
我們知道,TCP有一個連接檢測機(jī)制,就是如果在指定的時間內(nèi)(一般為2個小時)沒有數(shù)據(jù)傳送,會給對端發(fā)送一個Keep-Alive數(shù)據(jù)報,使用的序列號是曾經(jīng)發(fā)出的最后一個報文的最后一個字節(jié)的序列號,對端如果收到這個數(shù)據(jù),回送一個TCP的ACK,確認(rèn)這個字節(jié)已經(jīng)收到,這樣就知道此連接沒有被斷開。如果一段時間沒有收到對方的響應(yīng),會進(jìn)行重試,重試幾次后,向?qū)Χ税l(fā)一個reset,然后將連接斷掉。
在Windows中,第一次探測是在最后一次數(shù)據(jù)發(fā)送的兩個小時,然后每隔1秒探測一次,一共探測5次,如果5次都沒有收到回應(yīng)的話,就會斷開這個連接。但兩個小時對于我們的項目來說顯然太長了。我們必須縮短這個時間。那么我們該如何做呢?我要利用Socket類的IOControl()函數(shù)。我們來看看這個函數(shù)能干些什么:
使用 IOControlCode 枚舉指定控制代碼,為 Socket 設(shè)置低級操作模式。
命名空間:System.Net.Sockets
程序集:System(在 system.dll 中)
語法
C#
public int IOControl (
IOControlCode ioControlCode,
byte[] optionInValue,
byte[] optionOutValue
)
參數(shù)
ioControlCode
一個 IOControlCode 值,它指定要執(zhí)行的操作的控制代碼。
optionInValue
Byte 類型的數(shù)組,包含操作要求的輸入數(shù)據(jù)。
optionOutValue
Byte 類型的數(shù)組,包含由操作返回的輸出數(shù)據(jù)。
返回值
optionOutValue 參數(shù)中的字節(jié)數(shù)。
如:
socket.IOControl(IOControlCode.KeepAliveValues, inOptionValues, null);
我們要搞清楚的就是inOptionValues的定義,在C++里它是一個結(jié)構(gòu)體。我們來看看這個結(jié)構(gòu)體:
struct tcp_keepalive

...{
u_long onoff; //是否啟用Keep-Alive
u_long keepalivetime; //多長時間后開始第一次探測(單位:毫秒)
u_long keepaliveinterval; //探測時間間隔(單位:毫秒)
};

在C#中,我們直接用一個Byte數(shù)組傳遞給函數(shù):
uint dummy = 0;
byte[] inOptionValues = new byte[Marshal.SizeOf(dummy) * 3];
BitConverter.GetBytes((uint)1).CopyTo(inOptionValues, 0);//是否啟用Keep-Alive
BitConverter.GetBytes((uint)5000).CopyTo(inOptionValues, Marshal.SizeOf(dummy));//多長時間開始第一次探測
BitConverter.GetBytes((uint)5000).CopyTo(inOptionValues, Marshal.SizeOf(dummy) * 2);//探測時間間隔

具體實現(xiàn)代碼:
public static void AcceptThread()

...{
Thread.CurrentThread.IsBackground = true;
while (true)

...{
uint dummy = 0;
byte[] inOptionValues = new byte[Marshal.SizeOf(dummy) * 3];
BitConverter.GetBytes((uint)1).CopyTo(inOptionValues, 0);
BitConverter.GetBytes((uint)5000).CopyTo(inOptionValues, Marshal.SizeOf(dummy));
BitConverter.GetBytes((uint)5000).CopyTo(inOptionValues, Marshal.SizeOf(dummy) * 2);
try

...{
Accept(inOptionValues);
}

catch ...{ }
}
}

private static void Accept(byte[] inOptionValues)

...{
Socket socket = Public.s_socketHandler.Accept();
socket.IOControl(IOControlCode.KeepAliveValues, inOptionValues, null);
UserInfo info = new UserInfo();
info.socket = socket;
int id = GetUserId();
info.Index = id;
Public.s_userList.Add(id, info);
socket.BeginReceive(info.Buffer, 0, info.Buffer.Length, SocketFlags.None, new AsyncCallback(ReceiveCallBack), info);
}

好了,這樣就成功了。