• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            一場虛驚——記大量心跳超時事件的排查

               項目終于上線了,伴隨著人數(shù)的逐步上升,最近查看日志,發(fā)現(xiàn)了大量連接超時的日志。項目中使用的是TCP長連接,為了保證網(wǎng)絡(luò)資源及時有效的釋放,程序中是1分鐘一次心跳,3分鐘無心跳即認(rèn)為超時。此為本文的背景
               相對于TCP連接建立時的三次握手,我想很多人對斷開連接的四次招呼就不是那么熟了,這里先談一下TCP的斷開,下面給出TCP斷開連接的過程圖:

               (peakflys注:TIME_WAIT狀態(tài)到CLOSED狀態(tài)的轉(zhuǎn)變視SO_LINGER選項的設(shè)置)
               從上圖可以看到,在服務(wù)器不主動關(guān)閉客戶端TCP連接的情況下,需要客戶端發(fā)送一個FIN分節(jié),然后服務(wù)器端OS TCP棧對這個數(shù)據(jù)包回復(fù)ACK后,服務(wù)器處理程序從TCP棧內(nèi)取出此連接斷開的消息,一般服務(wù)器程序的處理是:做完收尾清理工作后馬上調(diào)用close或者shutdown操作來關(guān)閉相應(yīng)的socket。這樣雙方都調(diào)用了關(guān)閉套接口的操作,經(jīng)過后面的一次確認(rèn)后才正常的關(guān)閉全雙工工作的TCP連接。但是如果客戶端出現(xiàn)了異常,導(dǎo)致FIN包發(fā)不到服務(wù)器端,那服務(wù)器端就只能一直保持這種“死連接”存在。目前解決這種問題的方法有兩個:一、開啟TIME_OUT選項,默認(rèn)情況下TCP棧兩小時后保活一次(如果要改變這個值,需要修改TCP的全局配置選項,對所有在此機(jī)器上跑的TCP程序都生效!),保活失敗后則關(guān)閉連接、回收資源,但這種保活機(jī)制有很多明顯或隱藏的問題,不建議使用);二、在應(yīng)用層面上定義保活機(jī)制,即在應(yīng)用層固定時間雙方保持?jǐn)?shù)據(jù)的交換即可,超出這個固定時間就認(rèn)為連接已不存在,執(zhí)行回收關(guān)閉的操作。
               之前我對TCP超時的理解就是Client端環(huán)境(或者中間路由)發(fā)生了異常 導(dǎo)致TCP不優(yōu)雅的斷開,這種異常存在于兩種情況:
               ①、客戶端OS崩潰(peakflys注:程序崩潰時,OS會代進(jìn)程發(fā)送FIN,所以這種情況的出現(xiàn)時在OS負(fù)責(zé)TCP處理的內(nèi)核機(jī)制失效時,這種失效可以是軟件層面的,如OS自身bug,或驅(qū)動層面的故障亦或是直接硬件損壞導(dǎo)致的)
               ②、雙方網(wǎng)絡(luò)中斷(peakflys注:這種中斷可能是中間網(wǎng)絡(luò)服務(wù)商的路由出現(xiàn)故障,或者客戶端機(jī)器的網(wǎng)線拔掉了,斷開了同最后一跳的路由器直接的連接,這種情況下就回觸發(fā)TCP的重傳機(jī)制,linux下是基于Berkaly的實現(xiàn)方法,默認(rèn)重傳15分次,持續(xù)時間半個小時左右)
               上述情況最終表現(xiàn)出來的結(jié)果為“主機(jī)不可達(dá)”或“重傳超時”的錯誤(peakflys注:如果第一種情況被最后一跳的路由器探測到,更新完路由表后就會反饋"主機(jī)不可達(dá)"的錯誤,探測不到或者第二種情況的重傳機(jī)制規(guī)定次數(shù)還是失敗的話就會反饋“重傳超時”的錯誤),在這兩種錯誤后,TCP棧就無能為力了。這時服務(wù)器端就出現(xiàn)了不優(yōu)雅的“死鏈接”。
               其實這兩種錯誤很容易理解,這就像兩個打電話的人約定如果要掛電話必須要讓對方知道,第二種情況對應(yīng)的場景是:一方突然被綁架,嘴上被綁上膠帶,然后使勁在心里喊我要掛電話了,我要掛電話了,但是對方聽不到,只能一直傻傻的等著。第一種情況對應(yīng)的場景是:一方直接被爆頭了,連遺言都沒來得及說就掛了,對方?jīng)]聽到他說掛電話,所以也只能傻傻的等到花兒也落了……
               言歸正傳,重新回到本次事件的描述上。看到大量的連接超時的日志(一天有四百多條記錄,當(dāng)時用戶量才3000人左右),首先基本排除網(wǎng)絡(luò)問題,因為通過對超時的連接IP分析,發(fā)現(xiàn)并沒有明顯的區(qū)域性,美國很多州的IP都有。那么最有可能的就是客戶端問題了,因為客戶端如果出現(xiàn)死循環(huán)或者進(jìn)程死鎖之類的問題時,因為進(jìn)程未崩潰,OS的TCP棧不會管你的,這時候客戶端也無力處理服務(wù)器發(fā)送過來的保活信息,導(dǎo)致服務(wù)器端程序認(rèn)為此鏈接已不存在。但是客戶端的同事說應(yīng)該不會出現(xiàn)這么多客戶端異常的情況吧,因為測試了很久,最近也沒放出特別的代碼,內(nèi)部QA人員也從沒有反饋有這種情況。
               沒辦法,繼續(xù)搜集日志,找找規(guī)律。當(dāng)時的思維就停留在這里了,非優(yōu)雅連接產(chǎn)生除了客戶端問題,還可能有什么情況? 不同地方這么多用戶的OS一天內(nèi)都崩潰?概率應(yīng)該很小啊,而且前后連續(xù)的幾天都是這樣的情況,從概率上講應(yīng)該是0了吧? 難道是不同地方的這么多用戶網(wǎng)絡(luò)一天內(nèi)都出現(xiàn)問題?倒是可能出現(xiàn),但是美國那邊的產(chǎn)品經(jīng)理和運維人員都說沒有聽過這種情況……
               直到第二天和QA的經(jīng)理在聊起時他說了一句話:如果對方電腦休眠會出現(xiàn)這種情況嗎?我才柯南一般的靈光一閃,電腦休眠或者待機(jī)時應(yīng)該會出現(xiàn)這種情況吧。馬上去微軟官網(wǎng)幫助信息里查找關(guān)于待機(jī)、休眠的描述:
            “休眠”將保存一份桌面及所有打開文件和文檔的映像,然后關(guān)閉計算機(jī)電源。打開電源時,文件和文檔就會按原來離開時的樣子在桌面上打開。“待機(jī)”功能則切斷所用硬件組件的電源,從而減少計算機(jī)的電源消耗。“待機(jī)”可切斷外圍設(shè)備、顯示器甚至硬盤驅(qū)動器的電源,但會保留計算機(jī)內(nèi)存的電源,以不至于丟失工作數(shù)據(jù)。
               從上面可以看到休眠直接關(guān)閉了計算機(jī)的電源,就算是待機(jī)也是關(guān)閉了外圍設(shè)備,因為網(wǎng)絡(luò)功能的處理肯定都是最終通過網(wǎng)卡來實現(xiàn)的,如果它關(guān)閉了,自然一切的網(wǎng)絡(luò)功能都失效了,而且OS還無恥的自己直接“睡”了,導(dǎo)致在服務(wù)器程序不知情的情況下,客戶端程序直接被“雪藏”了……
               在自己電腦上模擬了一下,日志表現(xiàn)出來的狀況也證實了應(yīng)該是個答案。至于為什么這種情況每天有上百個,因為外網(wǎng)環(huán)境復(fù)雜,使用者的習(xí)慣更難以捉摸,但持續(xù)觀察了很多天,都沒有人反饋客戶端有什么異常,所以基本可以肯定是因windows電源管理策略的待機(jī)和休眠導(dǎo)致的。
               其實這種情況可以歸為第一種情況:客戶端OS“崩潰”,認(rèn)真想一下應(yīng)該可以想到休眠這種情況的,但是當(dāng)時思維愣是沒往那方面想,一直認(rèn)為可能是客戶端程序出了問題,導(dǎo)致浪費了將近一天的時間,虛驚一場。很多事情都是這樣,結(jié)果出來后再去倒推感覺每個過程都是順理成章的,但是正推時如果有一層窗戶紙沒捅開,就很可能跑到迷宮的另一個方向了……
                                                                                       --peakflys 16:42:04 Monday, May 27, 2013

            posted on 2013-05-27 16:56 peakflys 閱讀(5857) 評論(2)  編輯 收藏 引用 所屬分類: 服務(wù)器操作系統(tǒng)雜談

            評論

            # re: 一場虛驚——記大量心跳超時事件的排查 2013-05-28 09:48 zuhd

            學(xué)習(xí)了,客戶端的超時鏈接,我一般無視啊,我原來基本理解就是玩家網(wǎng)絡(luò)不好,沒想到休眠也會這樣  回復(fù)  更多評論   

            # re: 一場虛驚——記大量心跳超時事件的排查 2013-05-28 10:27 peakflys

            @zuhd
            如果使用成熟的網(wǎng)絡(luò)庫大可不必特別關(guān)注連接超時的問題,但是如果是自己按實際需要重新寫的網(wǎng)絡(luò)層,那么網(wǎng)絡(luò)層的容錯性和健壯性就需要通過很多指標(biāo)來考核,前期連接超時如果很多的話,就需要排查一下雙方網(wǎng)絡(luò)層代碼是否有異常。  回復(fù)  更多評論   

            <2012年10月>
            30123456
            78910111213
            14151617181920
            21222324252627
            28293031123
            45678910

            導(dǎo)航

            統(tǒng)計

            公告

            人不淡定的時候,就愛表現(xiàn)出來,敲代碼如此,偶爾的靈感亦如此……

            常用鏈接

            留言簿(4)

            隨筆分類

            隨筆檔案

            文章檔案

            搜索

            最新評論

            閱讀排行榜

            評論排行榜

            久久精品无码一区二区app| 久久精品www人人爽人人| 99久久中文字幕| 久久精品国产亚洲一区二区| 热re99久久精品国产99热| 国内精品伊人久久久影院| 久久婷婷五月综合色奶水99啪 | 91精品免费久久久久久久久| 久久99国产一区二区三区| 日韩久久久久久中文人妻| 国产成人精品久久二区二区| 久久91精品综合国产首页| 国产69精品久久久久9999APGF| 99久久免费国产精品| 久久亚洲精品国产精品婷婷| avtt天堂网久久精品| 人妻无码αv中文字幕久久 | 午夜欧美精品久久久久久久| 日本精品久久久久久久久免费| 久久精品国产亚洲av日韩 | 热久久视久久精品18| 69国产成人综合久久精品| 中文字幕无码久久精品青草| 国产精品免费久久久久久久久 | 精品久久久久久无码人妻热| 久久精品国产免费观看| 久久精品国产99国产精品导航| 国产精品美女久久久| 亚洲精品无码久久久久去q| 久久综合视频网站| 亚洲午夜福利精品久久| 曰曰摸天天摸人人看久久久| 国产午夜福利精品久久2021| 精品国产青草久久久久福利| 久久精品国产72国产精福利| 久久综合给合久久狠狠狠97色| 亚洲一级Av无码毛片久久精品| 久久99精品久久久久久水蜜桃| 99久久精品国产高清一区二区| 久久久久久国产精品免费无码| 色综合久久久久综合体桃花网 |