一路向北
追逐夢想，永不停步......

隨筆-4 評論-40 文章-117 trackbacks-0

一、介紹
Epoll 是一種高效的管理socket的模型，相對于select和poll來說具有更高的效率和易用性。傳統(tǒng)的select以及poll的效率會因為 socket數(shù)量的線形遞增而導(dǎo)致呈二次乃至三次方的下降，而epoll的性能不會隨socket數(shù)量增加而下降。標準的linux-2.4.20內(nèi)核不支持epoll，需要打patch。本文主要從linux-2.4.32和linux-2.6.10兩個內(nèi)核版本介紹epoll。
二、 Epoll的使用
epoll用到的所有函數(shù)都是在頭文件sys/epoll.h中聲明的，下面簡要說明所用到的數(shù)據(jù)結(jié)構(gòu)和函數(shù)：
所用到的數(shù)據(jù)結(jié)構(gòu)
typedef union epoll_data {
                void ptr;
                int fd;
                __uint32_t u32;
                __uint64_t u64;
      } epoll_data_t;

      struct epoll_event {
                __uint32_t events;    / Epoll events /
                epoll_data_t data;    / User data variable /
      };
結(jié)構(gòu)體epoll_event 被用于注冊所感興趣的事件和回傳所發(fā)生待處理的事件，其中epoll_data 聯(lián)合體用來保存觸發(fā)事件的某個文件描述符相關(guān)的數(shù)據(jù)，例如一個client連接到服務(wù)器，服務(wù)器通過調(diào)用accept函數(shù)可以得到于這個client對應(yīng)的socket文件描述符，可以把這文件描述符賦給epoll_data的fd字段以便后面的讀寫操作在這個文件描述符上進行。epoll_event 結(jié)構(gòu)體的events字段是表示感興趣的事件和被觸發(fā)的事件可能的取值為：EPOLLIN ：表示對應(yīng)的文件描述符可以讀；
EPOLLOUT：表示對應(yīng)的文件描述符可以寫；
EPOLLPRI：表示對應(yīng)的文件描述符有緊急的數(shù)據(jù)可讀
EPOLLERR：表示對應(yīng)的文件描述符發(fā)生錯誤；
EPOLLHUP：表示對應(yīng)的文件描述符被掛斷；
EPOLLET：表示對應(yīng)的文件描述符設(shè)定為edge模式；
所用到的函數(shù)：
1、epoll_create函數(shù)
    函數(shù)聲明：int epoll_create(int size)
    該函數(shù)生成一個epoll專用的文件描述符，其中的參數(shù)是指定生成描述符的最大范圍。在linux-2.4.32內(nèi)核中根據(jù)size大小初始化哈希表的大小，在linux2.6.10內(nèi)核中該參數(shù)無用，使用紅黑樹管理所有的文件描述符，而不是hash。
2、epoll_ctl函數(shù)
    函數(shù)聲明：int epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
    該函數(shù)用于控制某個文件描述符上的事件，可以注冊事件，修改事件，刪除事件。
    參數(shù)：epfd：由 epoll_create 生成的epoll專用的文件描述符；
                op：要進行的操作例如注冊事件，可能的取值
EPOLL_CTL_ADD 注冊、
EPOLL_CTL_MOD 修改、
EPOLL_CTL_DEL 刪除
fd：關(guān)聯(lián)的文件描述符；
event：指向epoll_event的指針；
如果調(diào)用成功返回0,不成功返回-1
3、epoll_wait函數(shù)
函數(shù)聲明:int epoll_wait(int epfd,struct epoll_event   events,int maxevents,int timeout)
該函數(shù)用于輪詢I/O事件的發(fā)生；
參數(shù)：
epfd:由epoll_create 生成的epoll專用的文件描述符；
epoll_event:用于回傳代處理事件的數(shù)組；
maxevents:每次能處理的事件數(shù)；
timeout:等待I/O事件發(fā)生的超時值（ms）；-1永不超時，直到有事件產(chǎn)生才觸發(fā)，0立即返回。
返回發(fā)生事件數(shù)。-1有錯誤。

舉一個簡單的例子：

C/C++ codeint main()
{
    //聲明epoll_event結(jié)構(gòu)體的變量,ev用于注冊事件,數(shù)組用于回傳要處理的事件
    struct epoll_event ev,events[20];

    epfd=epoll_create(10000); //創(chuàng)建epoll句柄

    listenfd = socket(AF_INET, SOCK_STREAM, 0);
    //把socket設(shè)置為非阻塞方式
    setnonblocking(listenfd);

    bzero(&serveraddr, sizeof(serveraddr));
    serveraddr.sin_family = AF_INET;
    serveraddr.sin_addr.s_addr = INADDR_ANY;
    serveraddr.sin_port=htons(SERV_PORT);
    bind(listenfd,(struct sockaddr )&serveraddr, sizeof(serveraddr));
    listen(listenfd, 255);

    //設(shè)置與要處理的事件相關(guān)的文件描述符
    ev.data.fd=listenfd;
    //設(shè)置要處理的事件類型
    ev.events=EPOLLIN;
    //注冊epoll事件
    epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

    for ( ; ; )
    {
      //等待epoll事件的發(fā)生
      nfds=epoll_wait(epfd,events,20,1000);
      //處理所發(fā)生的所有事件
      for(i=0;i<nfds;++i)
      {
         if(events .data.fd==listenfd)
         {
                connfd = accept(listenfd,(struct sockaddr )&clientaddr, &clilen);
                if(connfd<0)
                {
                  perror("connfd<0");
                }
                setnonblocking(connfd);
                //設(shè)置用于讀操作的文件描述符
                ev.data.fd=connfd;
                //設(shè)置用于注測的讀操作事件
                ev.events=EPOLLIN|EPOLLET;
                //注冊event
                epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev);
         }
         else if(events .events&EPOLLIN)
         {
                read_socket(events .data.fd);
                ev.data.fd=events .data.fd;
                ev.events=EPOLLIN|EPOLLOUT|EPOLLET;
                epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
         }
         else if(events .events&EPOLLOUT)
         {
                write_socket(events .data.fd);
                ev.data.fd=events .data.fd;
                ev.events=EPOLLIN|EPOLLET; //ET模式
            epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev);
         }
         else
         {
                perror("other event");
         }
      }
    }
}

Epoll的ET模式與LT模式
ET（Edge Triggered）與LT（Level Triggered）的主要區(qū)別可以從下面的例子看出
eg：
1．標示管道讀者的文件句柄注冊到epoll中；
2．管道寫者向管道中寫入2KB的數(shù)據(jù)；
3．調(diào)用epoll_wait可以獲得管道讀者為已就緒的文件句柄；
4．管道讀者讀取1KB的數(shù)據(jù)
5．一次epoll_wait調(diào)用完成
如果是ET模式，管道中剩余的1KB被掛起，再次調(diào)用epoll_wait，得不到管道讀者的文件句柄，除非有新的數(shù)據(jù)寫入管道。如果是LT模式，只要管道中有數(shù)據(jù)可讀，每次調(diào)用epoll_wait都會觸發(fā)。

另一點區(qū)別就是設(shè)為ET模式的文件句柄必須是非阻塞的。
三、 Epoll的實現(xiàn)
Epoll 的源文件在/usr/src/linux/fs/eventpoll.c，在module_init時注冊一個文件系統(tǒng) eventpoll_fs_type，對該文件系統(tǒng)提供兩種操作poll和release，所以epoll_create返回的文件句柄可以被poll、 select或者被其它epoll epoll_wait。對epoll的操作主要通過三個系統(tǒng)調(diào)用實現(xiàn)：
1． sys_epoll_create
2． sys_epoll_ctl
3． sys_epoll_wait
下面結(jié)合源碼講述這三個系統(tǒng)調(diào)用。
1.1 long sys_epoll_create (int size)
該系統(tǒng)調(diào)用主要分配文件句柄、inode以及file結(jié)構(gòu)。在linux-2.4.32內(nèi)核中，使用hash保存所有注冊到該epoll的文件句柄，在該系統(tǒng)調(diào)用中根據(jù)size大小分配hash的大小。具體為不小于size，但小于2size的2的某次方。最小為2的9次方（512），最大為2的17次方（128 x 1024）。在linux-2.6.10內(nèi)核中，使用紅黑樹保存所有注冊到該epoll的文件句柄，size參數(shù)未使用。
1.2 long sys_epoll_ctl(int epfd, int op, int fd, struct epoll_event event)
1．注冊句柄 op = EPOLL_CTL_ADD
注冊過程主要包括：
A．將fd插入到hash（或rbtree）中，如果原來已經(jīng)存在返回-EEXIST，
B．給fd注冊一個回調(diào)函數(shù)，該函數(shù)會在fd有事件時調(diào)用，在該函數(shù)中將fd加入到epoll的就緒隊列中。
C．檢查fd當前是否已經(jīng)有期望的事件產(chǎn)生。如果有，將其加入到epoll的就緒隊列中，喚醒epoll_wait。

2．修改事件 op = EPOLL_CTL_MOD
修改事件只是將新的事件替換舊的事件，然后檢查fd是否有期望的事件。如果有，將其加入到epoll的就緒隊列中，喚醒epoll_wait。

3．刪除句柄 op = EPOLL_CTL_DEL
將fd從hash（rbtree）中清除。
1.3 long sys_epoll_wait(int epfd, struct epoll_event events, int maxevents,int timeout)
如果epoll的就緒隊列為空，并且timeout非0，掛起當前進程，引起CPU調(diào)度。
如果epoll的就緒隊列不空，遍歷就緒隊列。對隊列中的每一個節(jié)點，獲取該文件已觸發(fā)的事件，判斷其中是否有我們期待的事件，如果有，將其對應(yīng)的epoll_event結(jié)構(gòu)copy到用戶events。

revents = epi->file->f_op->poll(epi->file, NULL);
epi->revents = revents & epi->event.events;
if (epi->revents) {
……
copy_to_user;
……
}
需要注意的是，在LT模式下，把符合條件的事件copy到用戶空間后，還會把對應(yīng)的文件重新掛接到就緒隊列。所以在LT模式下，如果一次epoll_wait某個socket沒有read/write完所有數(shù)據(jù)，下次epoll_wait還會返回該socket句柄。
四、使用epoll的注意事項
1. ET模式比LT模式高效，但比較難控制。
2. 如果某個句柄期待的事件不變，不需要EPOLL_CTL_MOD，但每次讀寫后將該句柄modify一次有助于提高穩(wěn)定性，特別在ET模式。
3. socket關(guān)閉后最好將該句柄從epoll中delete（EPOLL_CTL_DEL），雖然epoll自身有處理，但會使epoll的hash的節(jié)點數(shù)增多，影響搜索hash的速度。

Q：網(wǎng)絡(luò)服務(wù)器的瓶頸在哪？
A：IO效率。

在大家苦苦的為在線人數(shù)的增長而導(dǎo)致的系統(tǒng)資源吃緊上的問題正在發(fā)愁的時候，Linux 2.6內(nèi)核中提供的System Epoll為我們提供了一套完美的解決方案。傳統(tǒng)的select以及poll的效率會因為在線人數(shù)的線形遞增而導(dǎo)致呈二次乃至三次方的下降，這些直接導(dǎo)致了網(wǎng)絡(luò)服務(wù)器可以支持的人數(shù)有了個比較明顯的限制。

自從Linux提供了/dev/epoll的設(shè)備以及后來2.6內(nèi)核中對/dev /epoll設(shè)備的訪問的封裝（System Epoll）之后，這種現(xiàn)象得到了大大的緩解，如果說幾個月前，大家還對epoll不熟悉，那么現(xiàn)在來說的話，epoll的應(yīng)用已經(jīng)得到了大范圍的普及。

那么究竟如何來使用epoll呢？其實非常簡單。
通過在包含一個頭文件#include 以及幾個簡單的API將可以大大的提高你的網(wǎng)絡(luò)服務(wù)器的支持人數(shù)。

首先通過create_epoll(int maxfds)來創(chuàng)建一個epoll的句柄，其中maxfds為你epoll所支持的最大句柄數(shù)。這個函數(shù)會返回一個新的epoll句柄，之后的所有操作將通過這個句柄來進行操作。在用完之后，記得用close()來關(guān)閉這個創(chuàng)建出來的epoll句柄。

之后在你的網(wǎng)絡(luò)主循環(huán)里面，每一幀的調(diào)用epoll_wait(int epfd, epoll_event events, int max events, int timeout)來查詢所有的網(wǎng)絡(luò)接口，看哪一個可以讀，哪一個可以寫了。基本的語法為：
nfds = epoll_wait(kdpfd, events, maxevents, -1);
其中kdpfd為用epoll_create創(chuàng)建之后的句柄，events是一個epoll_event的指針，當epoll_wait這個函數(shù)操作成功之后，epoll_events里面將儲存所有的讀寫事件。max_events是當前需要監(jiān)聽的所有socket句柄數(shù)。最后一個timeout是 epoll_wait的超時，為0的時候表示馬上返回，為-1的時候表示一直等下去，直到有事件范圍，為任意正整數(shù)的時候表示等這么長的時間，如果一直沒有事件，則范圍。一般如果網(wǎng)絡(luò)主循環(huán)是單獨的線程的話，可以用-1來等，這樣可以保證一些效率，如果是和主邏輯在同一個線程的話，則可以用0來保證主循環(huán)的效率。

epoll_wait范圍之后應(yīng)該是一個循環(huán)，遍利所有的事件：

C/C++ codefor(n = 0; n < nfds; ++n) {
            if(events[n].data.fd == listener) { //如果是主socket的事件的話，則表示有新連接進入了，進行新連接的處理。
                   client = accept(listener, (struct sockaddr ) &local,
                                 &addrlen);
                   if(client < 0){
                     perror("accept");
                     continue;
                   }
                   setnonblocking(client); // 將新連接置于非阻塞模式
                   ev.events = EPOLLIN | EPOLLET; // 并且將新連接也加入EPOLL的監(jiān)聽隊列。
注意，這里的參數(shù)EPOLLIN | EPOLLET并沒有設(shè)置對寫socket的監(jiān)聽，如果有寫操作的話，這個時候epoll是不會返回事件的，如果要對寫操作也監(jiān)聽的話，應(yīng)該是EPOLLIN | EPOLLOUT | EPOLLET
                   ev.data.fd = client;
                   if (epoll_ctl(kdpfd, EPOLL_CTL_ADD, client, &ev) < 0) {
//   設(shè)置好event之后，將這個新的event通過epoll_ctl加入到epoll的監(jiān)聽隊列里面，這里用EPOLL_CTL_ADD來加一個新的 epoll事件，通過EPOLL_CTL_DEL來減少一個epoll事件，通過EPOLL_CTL_MOD來改變一個事件的監(jiān)聽方式。
                     fprintf(stderr, "epoll set insertion error: fd=d0,
                               client);
                     return -1;
                   }
            }
            else // 如果不是主socket的事件的話，則代表是一個用戶socket的事件，則來處理這個用戶socket的事情，比如說read(fd,xxx)之類的，或者一些其他的處理。
                   do_use_fd(events[n].data.fd);
}

對，epoll的操作就這么簡單，總共不過4個API：epoll_create, epoll_ctl, epoll_wait和close。

Linux 2.6內(nèi)核中提高網(wǎng)絡(luò)I/O性能的新方法

1、為什么select是落后的？
首先，在Linux內(nèi)核中，select所用到的FD_SET是有限的，即內(nèi)核中有個參數(shù)__FD_SETSIZE定義了每個FD_SET的句柄個數(shù)，在我用的2.6.15-25-386內(nèi)核中，該值是1024，搜索內(nèi)核源代碼得到：
include/linux/posix_types.h:#define __FD_SETSIZE 1024
也就是說，如果想要同時檢測1025個句柄的可讀狀態(tài)是不可能用select實現(xiàn)的。或者同時檢測1025個句柄的可寫狀態(tài)也是不可能的。
其次，內(nèi)核中實現(xiàn)select是用輪詢方法，即每次檢測都會遍歷所有FD_SET中的句柄，顯然，select函數(shù)執(zhí)行時間與FD_SET中的句柄個數(shù)有一個比例關(guān)系，即select要檢測的句柄數(shù)越多就會越費時。
當然，在前文中我并沒有提及poll方法，事實上用select的朋友一定也試過poll，我個人覺得select和poll大同小異，個人偏好于用select而已。
2、2.6內(nèi)核中提高I/O性能的新方法epoll
epoll是什么？按照man手冊的說法：是為處理大批量句柄而作了改進的poll。要使用epoll只需要這三個系統(tǒng)調(diào)用：epoll_create(2)， epoll_ctl(2)， epoll_wait(2)。
當然，這不是2.6內(nèi)核才有的，它是在2.5.44內(nèi)核中被引進的(epoll(4) is a new API introduced in Linux kernel 2.5.44)

epoll的優(yōu)點
<1>支持一個進程打開大數(shù)目的socket描述符(FD)
select 最不能忍受的是一個進程所打開的FD是有一定限制的，由FD_SETSIZE設(shè)置，默認值是2048。對于那些需要支持的上萬連接數(shù)目的IM服務(wù)器來說顯然太少了。這時候你一是可以選擇修改這個宏然后重新編譯內(nèi)核，不過資料也同時指出這樣會帶來網(wǎng)絡(luò)效率的下降，二是可以選擇多進程的解決方案(傳統(tǒng)的 Apache方案)，不過雖然linux上面創(chuàng)建進程的代價比較小，但仍舊是不可忽視的，加上進程間數(shù)據(jù)同步遠比不上線程間同步的高效，所以也不是一種完美的方案。不過 epoll則沒有這個限制，它所支持的FD上限是最大可以打開文件的數(shù)目，這個數(shù)字一般遠大于2048,舉個例子,在1GB內(nèi)存的機器上大約是10萬左右，具體數(shù)目可以cat /proc/sys/fs/file-max察看,一般來說這個數(shù)目和系統(tǒng)內(nèi)存關(guān)系很大。

<2>IO效率不隨FD數(shù)目增加而線性下降
傳統(tǒng)的select/poll另一個致命弱點就是當你擁有一個很大的socket集合，不過由于網(wǎng)絡(luò)延時，任一時間只有部分的socket是"活躍"的，但是select/poll每次調(diào)用都會線性掃描全部的集合，導(dǎo)致效率呈現(xiàn)線性下降。但是epoll不存在這個問題，它只會對"活躍"的socket進行操作---這是因為在內(nèi)核實現(xiàn)中epoll是根據(jù)每個fd上面的callback函數(shù)實現(xiàn)的。那么，只有"活躍"的socket才會主動的去調(diào)用 callback函數(shù)，其他idle狀態(tài)socket則不會，在這點上，epoll實現(xiàn)了一個"偽"AIO，因為這時候推動力在os內(nèi)核。在一些 benchmark中，如果所有的socket基本上都是活躍的---比如一個高速LAN環(huán)境，epoll并不比select/poll有什么效率，相反，如果過多使用epoll_ctl,效率相比還有稍微的下降。但是一旦使用idle connections模擬WAN環(huán)境,epoll的效率就遠在select/poll之上了。
<3>使用mmap加速內(nèi)核與用戶空間的消息傳遞。
這點實際上涉及到epoll的具體實現(xiàn)了。無論是select,poll還是epoll都需要內(nèi)核把FD消息通知給用戶空間，如何避免不必要的內(nèi)存拷貝就很重要，在這點上，epoll是通過內(nèi)核于用戶空間mmap同一塊內(nèi)存實現(xiàn)的。而如果你想我一樣從2.5內(nèi)核就關(guān)注epoll的話，一定不會忘記手工 mmap這一步的。
<4>內(nèi)核微調(diào)
這一點其實不算epoll的優(yōu)點了，而是整個linux平臺的優(yōu)點。也許你可以懷疑linux平臺，但是你無法回避linux平臺賦予你微調(diào)內(nèi)核的能力。比如，內(nèi)核TCP/IP協(xié)議棧使用內(nèi)存池管理sk_buff結(jié)構(gòu)，那么可以在運行時期動態(tài)調(diào)整這個內(nèi)存pool(skb_head_pool)的大小 --- 通過echo XXXX>/proc/sys/net/core/hot_list_length完成。再比如listen函數(shù)的第2個參數(shù)(TCP完成3次握手的數(shù)據(jù)包隊列長度)，也可以根據(jù)你平臺內(nèi)存大小動態(tài)調(diào)整。更甚至在一個數(shù)據(jù)包面數(shù)目巨大但同時每個數(shù)據(jù)包本身大小卻很小的特殊系統(tǒng)上嘗試最新的NAPI網(wǎng)卡驅(qū)動架構(gòu)。
epoll的使用
令人高興的是，2.6內(nèi)核的epoll比其2.5開發(fā)版本的/dev/epoll簡潔了許多，所以，大部分情況下，強大的東西往往是簡單的。唯一有點麻煩是epoll有2種工作方式:LT和ET。
LT(level triggered)是缺省的工作方式，并且同時支持block和no-block socket.在這種做法中，內(nèi)核告訴你一個文件描述符是否就緒了，然后你可以對這個就緒的fd進行IO操作。如果你不作任何操作，內(nèi)核還是會繼續(xù)通知你的，所以，這種模式編程出錯誤可能性要小一點。傳統(tǒng)的select/poll都是這種模型的代表．
ET (edge-triggered)是高速工作方式，只支持no-block socket。在這種模式下，當描述符從未就緒變?yōu)榫途w時，內(nèi)核通過epoll告訴你。然后它會假設(shè)你知道文件描述符已經(jīng)就緒，并且不會再為那個文件描述符發(fā)送更多的就緒通知，直到你做了某些操作導(dǎo)致那個文件描述符不再為就緒狀態(tài)了(比如，你在發(fā)送，接收或者接收請求，或者發(fā)送接收的數(shù)據(jù)少于一定量時導(dǎo)致了一個EWOULDBLOCK 錯誤）。但是請注意，如果一直不對這個fd作IO操作(從而導(dǎo)致它再次變成未就緒)，內(nèi)核不會發(fā)送更多的通知(only once),不過在TCP協(xié)議中，ET模式的加速效用仍需要更多的benchmark確認。
epoll只有epoll_create,epoll_ctl,epoll_wait 3個系統(tǒng)調(diào)用，具體用法請參考http://www.xmailserver.org/linux-patches/nio-improve.html ，
在http://www.kegel.com/rn/也有一個完整的例子，大家一看就知道如何使用了
Leader/follower模式線程pool實現(xiàn)，以及和epoll的配合

在Linux上開發(fā)網(wǎng)絡(luò)服務(wù)器的一些相關(guān)細節(jié):poll與epoll
　　隨著2.6內(nèi)核對epoll的完全支持，網(wǎng)絡(luò)上很多的文章和示例代碼都提供了這樣一個信息：使用epoll代替?zhèn)鹘y(tǒng)的 poll能給網(wǎng)絡(luò)服務(wù)應(yīng)用帶來性能上的提升。但大多文章里關(guān)于性能提升的原因解釋的較少，這里我將試分析一下內(nèi)核（2.6.21.1）代碼中poll與 epoll的工作原理，然后再通過一些測試數(shù)據(jù)來對比具體效果。 POLL：

先說poll，poll或select為大部分Unix/Linux程序員所熟悉，這倆個東西原理類似，性能上也不存在明顯差異，但select對所監(jiān)控的文件描述符數(shù)量有限制，所以這里選用poll做說明。
poll是一個系統(tǒng)調(diào)用，其內(nèi)核入口函數(shù)為sys_poll，sys_poll幾乎不做任何處理直接調(diào)用do_sys_poll，do_sys_poll的執(zhí)行過程可以分為三個部分：
1，將用戶傳入的pollfd數(shù)組拷貝到內(nèi)核空間，因為拷貝操作和數(shù)組長度相關(guān)，時間上這是一個O（n）操作，這一步的代碼在do_sys_poll中包括從函數(shù)開始到調(diào)用do_poll前的部分。
2，查詢每個文件描述符對應(yīng)設(shè)備的狀態(tài)，如果該設(shè)備尚未就緒，則在該設(shè)備的等待隊列中加入一項并繼續(xù)查詢下一設(shè)備的狀態(tài)。查詢完所有設(shè)備后如果沒有一個設(shè)備就緒，這時則需要掛起當前進程等待，直到設(shè)備就緒或者超時，掛起操作是通過調(diào)用schedule_timeout執(zhí)行的。設(shè)備就緒后進程被通知繼續(xù)運行，這時再次遍歷所有設(shè)備，以查找就緒設(shè)備。這一步因為兩次遍歷所有設(shè)備，時間復(fù)雜度也是O（n），這里面不包括等待時間。相關(guān)代碼在do_poll函數(shù)中。
3，將獲得的數(shù)據(jù)傳送到用戶空間并執(zhí)行釋放內(nèi)存和剝離等待隊列等善后工作，向用戶空間拷貝數(shù)據(jù)與剝離等待隊列等操作的的時間復(fù)雜度同樣是O（n），具體代碼包括do_sys_poll函數(shù)中調(diào)用do_poll后到結(jié)束的部分。
EPOLL：
接下來分析epoll，與poll/select不同，epoll不再是一個單獨的系統(tǒng)調(diào)用，而是由epoll_create/epoll_ctl/epoll_wait三個系統(tǒng)調(diào)用組成，后面將會看到這樣做的好處。
先來看sys_epoll_create(epoll_create對應(yīng)的內(nèi)核函數(shù)），這個函數(shù)主要是做一些準備工作，比如創(chuàng)建數(shù)據(jù)結(jié)構(gòu)，初始化數(shù)據(jù)并最終返回一個文件描述符（表示新創(chuàng)建的虛擬epoll文件），這個操作可以認為是一個固定時間的操作。
epoll是做為一個虛擬文件系統(tǒng)來實現(xiàn)的，這樣做至少有以下兩個好處：
1，可以在內(nèi)核里維護一些信息，這些信息在多次epoll_wait間是保持的，比如所有受監(jiān)控的文件描述符。
2， epoll本身也可以被poll/epoll;
具體epoll的虛擬文件系統(tǒng)的實現(xiàn)和性能分析無關(guān)，不再贅述。
在sys_epoll_create中還能看到一個細節(jié)，就是epoll_create的參數(shù)size在現(xiàn)階段是沒有意義的，只要大于零就行。

接著是sys_epoll_ctl(epoll_ctl對應(yīng)的內(nèi)核函數(shù)），需要明確的是每次調(diào)用sys_epoll_ctl只處理一個文件描述符，這里主要描述當op為EPOLL_CTL_ADD時的執(zhí)行過程，sys_epoll_ctl做一些安全性檢查后進入ep_insert，ep_insert里將 ep_poll_callback做為回掉函數(shù)加入設(shè)備的等待隊列（假定這時設(shè)備尚未就緒），由于每次poll_ctl只操作一個文件描述符，因此也可以認為這是一個O(1)操作

ep_poll_callback函數(shù)很關(guān)鍵，它在所等待的設(shè)備就緒后被系統(tǒng)回掉，執(zhí)行兩個操作：

1，將就緒設(shè)備加入就緒隊列，這一步避免了像poll那樣在設(shè)備就緒后再次輪詢所有設(shè)備找就緒者，降低了時間復(fù)雜度，由O（n）到O（1）;
2，喚醒虛擬的epoll文件;
最后是sys_epoll_wait，這里實際執(zhí)行操作的是ep_poll函數(shù)。該函數(shù)等待將進程自身插入虛擬epoll文件的等待隊列，直到被喚醒（見上面ep_poll_callback函數(shù)描述），最后執(zhí)行ep_events_transfer將結(jié)果拷貝到用戶空間。由于只拷貝就緒設(shè)備信息，所以這里的拷貝是一個O(1）操作。
還有一個讓人關(guān)心的問題就是epoll對EPOLLET的處理，即邊沿觸發(fā)的處理，粗略看代碼就是把一部分水平觸發(fā)模式下內(nèi)核做的工作交給用戶來處理，直覺上不會對性能有太大影響，感興趣的朋友歡迎討論。
POLL/EPOLL對比：
表面上poll的過程可以看作是由一次epoll_create/若干次epoll_ctl/一次epoll_wait/一次close等系統(tǒng)調(diào)用構(gòu)成，實際上epoll將poll分成若干部分實現(xiàn)的原因正是因為服務(wù)器軟件中使用poll的特點（比如Web服務(wù)器）：
1，需要同時poll大量文件描述符;
2，每次poll完成后就緒的文件描述符只占所有被poll的描述符的很少一部分。
3，前后多次poll調(diào)用對文件描述符數(shù)組（ufds）的修改只是很小;
傳統(tǒng)的poll函數(shù)相當于每次調(diào)用都重起爐灶，從用戶空間完整讀入ufds，完成后再次完全拷貝到用戶空間，另外每次poll都需要對所有設(shè)備做至少做一次加入和刪除等待隊列操作，這些都是低效的原因。

epoll將以上情況都細化考慮，不需要每次都完整讀入輸出ufds，只需使用epoll_ctl調(diào)整其中一小部分，不需要每次epoll_wait都執(zhí)行一次加入刪除等待隊列操作，另外改進后的機制使的不必在某個設(shè)備就緒后搜索整個設(shè)備數(shù)組進行查找，這些都能提高效率。另外最明顯的一點，從用戶的使用來說，使用epoll不必每次都輪詢所有返回結(jié)果已找出其中的就緒部分，O（n）變O（1），對性能也提高不少。

此外這里還發(fā)現(xiàn)一點，是不是將epoll_ctl改成一次可以處理多個fd（像semctl那樣）會提高些許性能呢？特別是在假設(shè)系統(tǒng)調(diào)用比較耗時的基礎(chǔ)上。不過關(guān)于系統(tǒng)調(diào)用的耗時問題還會在以后分析。

POLL/EPOLL測試數(shù)據(jù)對比：
測試的環(huán)境：我寫了三段代碼來分別模擬服務(wù)器，活動的客戶端，僵死的客戶端，服務(wù)器運行于一個自編譯的標準2.6.11內(nèi)核系統(tǒng)上，硬件為 PIII933，兩個客戶端各自運行在另外的PC上，這兩臺PC比服務(wù)器的硬件性能要好，主要是保證能輕易讓服務(wù)器滿載，三臺機器間使用一個100M交換機連接。
服務(wù)器接受并poll所有連接，如果有request到達則回復(fù)一個response，然后繼續(xù)poll。
活動的客戶端（Active Client）模擬若干并發(fā)的活動連接，這些連接不間斷的發(fā)送請求接受回復(fù)。
僵死的客戶端（zombie）模擬一些只連接但不發(fā)送請求的客戶端，其目的只是占用服務(wù)器的poll描述符資源。
測試過程：保持10個并發(fā)活動連接，不斷的調(diào)整僵并發(fā)連接數(shù)，記錄在不同比例下使用poll與epoll的性能差別。僵死并發(fā)連接數(shù)根據(jù)比例分別是：0，10，20，40，80，160，320，640，1280，2560，5120，10240。
下圖中橫軸表示僵死并發(fā)連接與活動并發(fā)連接之比，縱軸表示完成40000次請求回復(fù)所花費的時間，以秒為單位。紅色線條表示poll數(shù)據(jù)，綠色表示 epoll數(shù)據(jù)。可以看出，poll在所監(jiān)控的文件描述符數(shù)量增加時，其耗時呈線性增長，而epoll則維持了一個平穩(wěn)的狀態(tài)，幾乎不受描述符個數(shù)影響。
在監(jiān)控的所有客戶端都是活動時，poll的效率會略高于epoll（主要在原點附近，即僵死并發(fā)連接為0時，圖上不易看出來），究竟epoll實現(xiàn)比poll復(fù)雜，監(jiān)控少量描述符并非它的長處。

posted on 2012-02-09 13:48 李陽閱讀(20351) 評論(0) 編輯收藏引用所屬分類: Linux

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: Linux 信號 (轉(zhuǎn)) 【轉(zhuǎn)】IO - 同步，異步，阻塞，非阻塞（亡羊補牢篇）深入了解epoll (轉(zhuǎn)) 加速Linux程序編譯 Linux下Gcc生成和使用靜態(tài)庫和動態(tài)庫詳解（轉(zhuǎn)） Linux環(huán)境進程間通信共享內(nèi)存（下） Linux環(huán)境進程間通信共享內(nèi)存（上） shmat linux下獲取時間的若干函數(shù) vim目錄樹插件NERD tree的安裝方法

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

<

2025年9月

>

日

一

二

三

四

五

六

31

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

常用鏈接

留言簿(7)

隨筆分類

隨筆檔案

文章分類

文章檔案

鏈接

CodeGuru
CodeProject
sqlite中文站
VIM -幫助
Vim中文使用手冊
面向 Linux 程序員和系統(tǒng)管理員的技術(shù)資源
云風的 BLOG

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

常用鏈接

留言簿(7)

隨筆分類

隨筆檔案

文章分類

文章檔案

鏈接

友情鏈接

搜索

最新評論

閱讀排行榜

評論排行榜