久久国产乱子精品免费女,A狠狠久久蜜臀婷色中文网,欧美精品九九99久久在观看

__builtin_expect 解惑

鑫龙 — Mon, 29 Sep 2014 13:31:00 GMT

摘要: 转自�Q�http://my.oschina.net/moooofly/blog/175019最�q�看 GLib 的代码遇到这个东东，�|�上搜烦一圈，发现很多人都写过�q�个�Q�自�׃��天才研究刎ͼ�汗颜一下，扫盲一个点�Q�留此记录�ؓ证！首先看一��最官方的讲解： ====== likely() and unlikely() What are they ? In Linux ... 阅读全文

鑫龙 2014-09-29 21:31 发表评论

11.Linux内核设计与实�?P160---��序锁�ȝ�� (�?

鑫龙 — Fri, 09 Nov 2012 10:14:00 GMT

当��用读/写自旋锁�Ӟ��内核控制路径发出的执行read_lock或write_lock操作的请求具有相同的优先权：读者必��ȝ��待，直到写操作完成。同样地�Q�写者也必须�{�待�Q�直到读操作完成�?/span>

Linux 2.6中引入了��序锁（seqlock�Q�，它与�?写自旋锁非常�怼��Q�只是它为写者赋予了较高的优先��Q�事实上�Q�即使在读者正在读的时候也允许写者��l�运行。这�U�策略的好处是写者永�q�不会等待读�Q�除非另外一个写者正在写�Q�，�~�点是有些时候读者不得不反复��d��ơ相同的数据直到它获得有效的�l�果�?/span>

每个��序锁都是包括两个字�D늚�seqlock_t�l�构�Q?/span>
typedef struct {
    unsigned sequence;
    spinlock_t lock;
} seqlock_t;

一个类型�ؓspinlock_t的lock字段和一个整型的sequence字段�Q�第二个字段sequence是一个顺序计数器�?/span>

每个读者都必须在读数据前后两次读顺序计数器�Q��ƈ��查两�ơ读到的值是否相同，如果不相同，说明新的写者已�l�开始写�q�增加了��序计数器，因此暗示读者刚��d��的数据是无效的�?/span>

通过把SEQLOCK_UNLOCKED赋给变量seqlock_t或执行seqlock_init宏，把seqlock_t变量初始化�ؓ“未上�?#8221;�Q��ƈ把sequence设�ؓ0�Q?/span>
#define __SEQLOCK_UNLOCKED(lockname) /
        { 0, __SPIN_LOCK_UNLOCKED(lockname) }

#define SEQLOCK_UNLOCKED /
        __SEQLOCK_UNLOCKED(old_style_seqlock_init)

# define __SPIN_LOCK_UNLOCKED(lockname) /
    (spinlock_t)    {    .raw_lock = __RAW_SPIN_LOCK_UNLOCKED,    /
                SPIN_DEP_MAP_INIT(lockname) }
#define __RAW_SPIN_LOCK_UNLOCKED    { 1 }

写者通过调用write_seqlock()和write_sequnlock()获取和释��N��序锁。write_seqlock()函数获取seqlock_t数据�l�构中的自旋锁，然后佉K��序计数器sequence�?�Q�write_sequnlock()函数再次增加��序计数器sequence�Q�然后释放自旋锁。这样可以保证写者在整个写的�q�程中，计数器sequence的值是奇数�Q��ƈ且当没有写者在改变数据的时候，计数器的值是偶数。读者进�E�执行下面的临界��Z��码：

    unsigned int seq;
    do {
        seq = read_seqbegin(&seqlock);
        /* ... CRITICAL REGION ... */
    } while (read_seqretry(&seqlock, seq));

read_seqbegin()�q�回��序锁的当前��序��P��如果局部变量seq的值是奇数�Q�写者在read_seqbegin()函数被调用后�Q�正更新数据�l�构�Q�，或seq的��g��序锁的��序计数器的当前��g��匚w��Q�当读者正执行临界��Z��码时�Q�写者开始工作）�Q�read_seqretry()��p��?�Q?/span>
static __always_inline int read_seqretry(const seqlock_t *sl, unsigned iv)
{
    smp_rmb();
    return (iv & 1) | (sl->sequence ^ iv);
}

注意在顺序锁机制里，读者可能反复读多次相同的数据直到它获得有效的结果（read_seqretry�q�回0�Q�。另外，当读者进入��界区�Ӟ��不必��用内核抢占�Q�另一斚w��Q�由写者获取自旋锁�Q�所以它�q�入临界区时自动��用内核抢占�?/span>

�q�不是每一�U�资源都可以使用��序锁来保护。一般来��_��必须在满��下�q�条件时才能使用��序锁：

�Q?�Q�被保护的数据结构不包括被写者修改和被读�?/span>间接引用 的指针（否则�Q�写者可能在读者的眼皮子底下就修改指针�Q��?/span>
�Q?�Q�读者的临界��Z��码没有副作用�Q�否则，多个读者的操作会与单独的读操作有不同的�l�果�Q��?/span>

此外�Q�读者的临界��Z��码应该简短，而且写者应该不常获取顺序锁�Q�否则，反复的读讉K��会引起严重的开销。在Linux 2.6中，使用��序锁主要是保护一些与�pȝ��旉��处理相关的数据结构�?/span>

鑫龙 2012-11-09 18:14 发表评论

10.Linux内核设计与实�?P148---自旋锁�ȝ�� (�?

鑫龙 — Fri, 09 Nov 2012 08:34:00 GMT

自旋锁可分�ؓ用在单核处理器上和用在多核处理器上�?/span>

单核处理器：

用在单核处理器上�Q�又可分��Z��U�：

1.�pȝ��不支持内核抢�?/div>

此时自旋锁什么也不做�Q�确实也不需要做什么，因�ؓ单核处理器只有一个线�E�在执行�Q�又不支持内核抢占，因此资源不可能会被其他的�U�程讉K��到�?/div>

2.�pȝ��支持内核抢占

�q�种情况下，自旋锁加锁仅仅是��止了内核抢占，解锁则是启用了内核抢占�?/div>

在上�q�C��U�情况下�Q�在获取自旋锁后可能会发生中断，若中断处理程序去讉K��自旋锁所保护的资源，则会发生死锁。因此，linux内核又提供了spin_lock_irq()和spin_lock_irqsave()�Q�这两个函数会在获取自旋锁的同时�Q�同时禁止内核抢占）�Q�禁止本地外部可屏蔽中断�Q�从而保证自旋锁的原子操作�?/div>

多核处理器：

多核处理器意味着有多个线�E�可以同时在不同的处理器上�ƈ行执行。�D个例子：

四核处理器，若A处理器上的线�E?获取了锁,B、C两个处理器恰好这个时候也要访问这个锁保护的资源，因此他俩CPU��׃��直自旋忙�{�待。D�q�不需要这个资源，因此它可以正常处理其他事情�?/div>

自旋锁的几个特点�Q?/div>

1.被自旋锁保护的��界区代码执行时不能睡眠。单核处理器下，获取到锁的线�E�睡眠，若恰好此时CPU调度的另一个执行线�E�也需要获取这个锁�Q�则会造成死锁�Q�多核处理器下，若想获取锁的�U�程在同一个处理器下，同样会造成死锁�Q�若位于另外的处理器�Q�则会长旉��占用CPU�{�待睡眠的线�E�释��N��Q�从而浪费CPU资源�?/div>

2.被自旋锁保护的��界区代码执行时不能被其他中断打断。原因同上类伹{�?/div>

3.被自旋锁保护的��界区代码在执行时�Q�内�怸�能被抢占�Q�亦同上�c�M��?/div>

鑫龙 2012-11-09 16:34 发表评论

9.Linux内核设计与实�?P91---中断和中断处理程�?(�?

鑫龙 — Fri, 26 Oct 2012 08:49:00 GMT

摘要: 中断�q�是中断�Q�我讲了很多�ơ的中断了，今天�q�是要讲中断�Q��ؓ啥呢�Q�因为在操作�pȝ��中，中断是必��要讲的.. 那么什么叫中断呢，中断�q�是打断�Q�这样一说你��׃��明白了。唉�Q�中断还真是有点像打断。我们知道linux��理所有的��g讑֤��Q�要做的�W�一件事先是通信。然后，我们天天在说一句话�Q�处理器的速度�?.. 阅读全文

鑫龙 2012-10-26 16:49 发表评论

鑫龙 — Mon, 22 Oct 2012 12:40:00 GMT

�q�程上下文和中断上下文是操作�pȝ��中很重要的两个概念，�q�两个概念在操作�pȝ��评��中不断被提及�Q�是最�l�常接触、看上去很懂但又说不清楚到底怎么回事。造成�q�种局面的原因�Q�可能是原来接触到的操作�pȝ��评��的教学��d��留在一�U�浅层次的理论层面上�Q�没有深入去研究�?/span>
处理器��d��于以下状态中的一�U�：
�Q�、内核态，�q�行于进�E�上下文�Q�内�总�表进�E�运行于内核�I�间�Q?/span>
�Q�、内核态，�q�行于中断上下文�Q�内�总�表硬件运行于内核�I�间�Q?/span>
�Q�、用��h��，�q�行于用��L��间�?/span>

用户�I�间的应用程序，通过�pȝ��调用�Q�进入内核空间。这个时候用��L��间的�q�程要传递很多变量、参数的值给内核�Q�内核态运行的时候也要保存用戯��E�的一些寄存器倹{��变量等。所谓的“�q�程上下�?#8221;�Q�可以看作是用户�q�程传递给内核的这些参��C��及内核要保存的那一整套的变量和寄存器值和当时的环境等�?/span>

��g通过触发信号�Q�导致内核调用中断处理程序，�q�入内核�I�间。这个过�E�中�Q�硬件的一些变量和参数也要传递给内核�Q�内栔R��过�q�些参数�q�行中断处理。所谓的“中断上下�?#8221;�Q�其实也可以看作��是��g传递过来的�q�些参数和内栔R��要保存的一些其他环境（主要是当前被打断执行的进�E�环境）�?/span>

关于�q�程上下文LINUX完全注释中的一�D�话�Q?/span>

当一个进�E�在执行�?CPU的所有寄存器中的倹{��进�E�的状态以及堆栈中的内容被�U�Cؓ该进�E�的上下文。当内核需要切换到另一个进�E�时�Q�它需要保存当前进�E�的所有状态，即保存当前进�E�的上下文，以便在再�ơ执行该�q�程�Ӟ��能够必得到切换时的状态执行下厅R��在LINUX中，当前�q�程上下文均保存在进�E�的��d��数据�l�构中。在发生中断�?内核��在被中断进�E�的上下文中�Q�在内核态下执行中断服务例程。但同时会保留所有需要用到的资源�Q�以便中断服务结束时能恢复被中断�q�程的执行�?/span>

鑫龙 2012-10-22 20:40 发表评论

6.Linux内核设计与实�?P57---�pȝ��调用(�?

鑫龙 — Mon, 22 Oct 2012 12:03:00 GMT

在Linux中，�pȝ��调用是用��L��间访问内核的唯一手段�Q�它们是内核唯一的合法入口。实际上�Q�其他的像设备文件和/proc之类的方式，最�l�也�q�是要通过�pȝ��调用�q?/span>行的�?/span>

一般情况下�Q�应用程序通过应用�~�程接口(API)而不是直接通过�pȝ��调用来编�E�，而且�q�种�~�程接口实际上�ƈ不需要和内核提供的系�l�调用对应。一个API定义了一�l?/span>应用�E�序使用的编�E�接口。它们可以实现成一个系�l�调用，也可以通过调用多个�pȝ��调用来实玎ͼ�即��不��用�Q何系�l�调用也不存在问题。实际上�Q�API可以在各�U�不�?/span>的操作系�l�上实现�Q�给应用�E�序提供完全相同的接口，而它们本�w�在�q�些�pȝ��上的实现却可能��E异�?/span>

在Unix世界中，最��行的应用编�E�接口是��Z��POSIX标准的，Linux是与POSIX兼容的�?/span>

从程序员的角度看�Q�他们只需要给API打交道就可以了，而内核只跟系�l�调用打交道�Q�库函数及应用程序是怎么使用�pȝ��调用不是内核兛_��的�?/span>

�pȝ��调用(在linux中常�U�C��syscalls)通常通过函数�q�行调用。它们通常都需要定义一个或几个参数(输入)而且可能产生一些副作用。这些副作用通过一个long�c�d��的返回值来表示成功(0�?或者错�?负�?。在�pȝ��调用出现错误的时候会把错误码写入errno全局变量。通过调用perror()函数�Q�可以把该变量翻译成用户可以理解的错误字�W�串�?/span>

�pȝ��调用的实现有两个特别之处�Q?�Q�函数声明中都有asmlinkage限定词，用于通知�~�译器仅从栈中提取该函数的参数�?�Q�系�l�调用getXXX()在内�怸�被定义�ؓsys_getXXX()。这是Linux中所有系�l�调用都应该遵守的命名规则�?/span>

�pȝ��调用��P��在linux中，每个�pȝ��调用都赋予一个系�l�调用号�Q�通过�q�个独一无二的号��可以关联系�l�调用。当用户�I�间的进�E�执行一个系�l�调用的时候，�q�个�pȝ��调用号就被用来指明到底要执行哪个�pȝ��调用�Q�进�E�不会提及系�l�调用的名称。系�l�调用号一旦分配就不能再有��M��变更(否则�~�译好的应用�E�序��׃��崩溃)�Q�如果一个系�l�调用被删除�Q�它所占用的系�l�调用号也不允许被回收利用。Linux有一�?未��?�pȝ��调用sys_ni_syscall(),它除了返�?ENOSYS外不做�Q何其他工作，�q�个错误�?/span>��是专门针对无效的系�l�调用而设的。虽然很�|�见�Q�但如果有一个系�l�调用被删除�Q�这个函数就要负�?#8220;填补�I�Z��”�?/span>

内核记录了系�l�调用表中所有已注册�q�的�pȝ��调用的列表，存储在sys_call_table中。它与体�pȝ��构有养I��一般在entry.s中定义。这个表中�ؓ每一个有效的�pȝ��调用�?/span>定了唯一的系�l�调用号�?/span>

用户�I�间的程序无法直接执行内�总�码。它们不能直接调用内核空间的函数�Q�因为内栔R��留在受保护的地址�I�间上，应用�E�序应该以某�U�方式通知�pȝ��Q�告诉内核自己需要执行一个系�l�调用，�pȝ��pȝ��切换到内核态，�q�样内核��可以代表应用程序来执行该系�l�调用了。这�U�通知内核的机制是通过软中断实现的。x86�pȝ��上的软中�?/span>由int$0x80指��o产生。这条指令会触发一个异常导致系�l�切换到内核态�ƈ执行�W?28号异常处理程序，而该�E�序正是�pȝ��调用处理�E�序�Q�名字叫system_call().它与��g体系�l�构紧密相关�Q�通常在entry.s文�g中通过汇编语言�~�写�?/span>

所有的�pȝ��调用陷入内核的方式都是一��L��Q�所以仅仅是陷入内核�I�间是不够的。因此必��L��pȝ��调用号一�q�传�l�内核。在x86上，�q�个传递动作是通过在触发��Y�?/span>断前把调用号装入eax寄存器实现的。这��L��l�调用处理程序一旦运行，��可以从eax中得到数据。上�q�所说的system_call()通过��给定的�pȝ��调用号与NR_syscalls做比较来��查其有效性。如果它大于或者等于NR_syscalls�Q�该函数��p��?ENOSYS.否则�Q�就执行相应的系�l�调用：call *sys_call_table(, %eax, 4);

�׃��pȝ��调用表中的表��Ҏ��?2�?4字节)�c�d��存放的，所以内栔R��要将�l�定的系�l�调用号乘以4�Q�然后用所得到的结果在该表中查询器位置。如囑֛�一所�C�：

上面已经提到�Q�除了系�l�调用号以外�Q�还需要一些外部的参数输入。最��单的办法��是像传递系�l�调用号一��h��q�些参数也存攑֜�寄存器里。在x86�pȝ��上ebx,ecx,edx,esi和edi按照��序存放�?个参数。需要六个或六个以上参数的情况不多见�Q�此�Ӟ��应该用一个单独的寄存器存放指向所有这些参数在用户�I�间地址的指针。给用户�I�间的返回��g��通过寄存器传递。在x86�pȝ��上，它存攑֜�eax寄存器中�?/span>

�pȝ��调用必须仔细��查它们所有的参数是否合法有效。系�l�调用在内核�I�间执行。如果�Q��q��户将不合法的输入传递给内核�Q�那么系�l�的安全和稳定将面��极大的考验。最重要的一�U�检查就是检查用��h��供的指针是否有效�Q�内核在接收一个用��L��间的指针之前�Q�内核必��要保证�Q?/span>

1)指针指向的内存区域属于用��L��?br />2)指针指向的内存区域在�q�程的地址�I�间�?br />3)如果是读�Q�读内存应该标记为可诅R��如果是写，该内存应该标��Cؓ可写�?/span>

内核提供了两�U�方法来完成必须的检查和内核�I�间与用��L��间之间数据的来回拯��。这两个�Ҏ��必须有一个被调用�?/span>

copy_to_user():向用��L��间写入数�?需�?个参数。第一个参数是�q�程�I�间中的目的内存地址。第二个是内核空间内的源地址
.�W�三个是需要拷贝的数据长度(字节�?�?br />copy_from_user():向用��L��间读取数�?需�?个参数。第一个参数是�q�程�I�间中的目的内存地址。第二个是内核空间内的源�?br /> 址.�W�三个是需要拷贝的数据长度(字节�?�?br />注意�Q�这两个都有可能引�v��d��。当包含用户数据的页被换出到��盘上而不是在物理内存上的时候，�q�种情况��׃��发生。此�Ӟ��q�程��׃��休眠�Q�直到缺��处理程序将该页从硬盘重新换回到物理内存�?/span>

内核在执行系�l�调用的时候处于进�E�上下文�Q�current指针指向当前��d��Q�即引发�pȝ��调用的那个进�E�。在�q�程上下文中�Q�内核可以休�?比如在系�l�调用阻塞或昑ּ�调用schedule()的时�?�q�且可以被抢占。当�pȝ��调用�q�回的时候，控制权仍然在system_call()中，它最�l�会负责切换到用��L��间�ƈ让用戯��E��l�执行下厅R�?/span>

�l�linux��d��一个系�l�调用时间很��单的事情�Q�怎么设计和实��C��个系�l�调用是��N��所在。实现系�l�调用的�W�一步是军_��它的用途，�q�个用途是明确且唯一的，不要��试�~�写多用途的�pȝ��调用。ioctl则是一个反面教材。新�pȝ��调用的参敎ͼ��q�回值和错误码该是什么，�q�些都很关键。一旦一个系�l�调用编写完成后�Q�把它注册成��Z��个正式的�pȝ��调用是�g琐碎的工作，一般下面几步：

1)在系�l�调用表(一般位于entry.s)的最后加入一个表��V��从0开始算��P��pȝ��表项在该表中的位�|�就是它的系�l�调用号。如�W?br /> 10个系�l�调用分配到�pȝ��调用号�ؓ9
2)��M��体系�l�构�Q�系�l�调用号都必��d��义于include/asm/unistd.h�?br />3)�pȝ��调用必须被编译进内核映像(不能�~�译成模�?。这只要把它放进kernel/下的一个相��x��件就可以�?/span>

通常�Q�系�l�调用靠C库支持，用户�E�序通过包含标准头文件�ƈ和C库链接，��可以��用系�l�调�?或者��用库函数�Q�再由库函数实际调用)。庆�q�的是linux本��n提供了一�l�宏用于直接对系�l�调用进行访问。它会设�|�好寄存器�ƈ调用int $0x80指��o。这些宏是_syscalln(),其中n的范围是�?�?.代表需要传递给�pȝ��调用的参��C��数。这是由于该宏必��M��解到底有多少参数按照什么次序压入寄存器。以open�pȝ��调用��Z��Q?/span>

open()�pȝ��调用定义如下是：
long open(const char *filename, int flags, int mode)
直接调用此系�l�调用的宏的形式为：
#define NR_open 5
_syscall3(long, open, const char *, filename, int , flags, int, mode)

�q�样�Q�应用程序就可以直接使用open().调用open()�pȝ��调用直接把上面的宏放�|�在应用�E�序中就可以了。对于每个宏来说�Q�都�?+2*n个参数。每个参数的意义��单明了，�q�里��׃��详细说明了�?/span>

鑫龙 2012-10-22 20:03 发表评论

8.Linux内核设计与实�?P77---list_for_each()与list_for_each_safe()的区�?(�?

鑫龙 — Mon, 22 Oct 2012 02:45:00 GMT

list_for_each()的定义：

/**
* list_for_each - iterate over a list
* @pos: the &struct list_head to use as a loop counter.
* @head: the head for your list.
*/
#define list_for_each(pos, head) \
for (pos = (head)->next, prefetch(pos->next); pos != (head); \
pos = pos->next, prefetch(pos->next))

list_for_each_safe()的定义：

/**
* list_for_each_safe - iterate over a list safe against removal of list entry
* @pos: the &struct list_head to use as a loop counter.
* @n: another &struct list_head to use as temporary storage
* @head: the head for your list.
*/
#define list_for_each_safe(pos, n, head) \
for (pos = (head)->next, n = pos->next; pos != (head); \
pos = n, n = pos->next)

�׃��面两个对比来看，list_for_each_safe()函数比list_for_each()多了一个中间变量n

当在遍历的过�E�中需要删除结�Ҏ��Q�来看一下会出现什么情况：

list_for_each()�Q�list_del(pos)��pos的前后指针指向undefined state,��D��kernel panic�Q�另如果list_del_init(pos)��pos前后指针指向自��n�Q�导致死循环�?/span>

list_for_each_safe()�Q�首先将pos的后指针�~�存到n�Q�处理一个流�E�后再赋回pos�Q�避免了�q�种情况发生�?/span>

因此之遍历链表不删除�l�点�Ӟ��可以使用list_for_each()�Q�而当由删除结�Ҏ��作时�Q�则要��用list_for_each_safe()�?/span>

其他带safe的处理也是基于这个原因�?/span>

鑫龙 2012-10-22 10:45 发表评论

7.Linux内核设计与实�?P69---深入分析 Linux 内核链表(�?

鑫龙 — Mon, 22 Oct 2012 02:31:00 GMT

一�?链表数据�l�构��?nbsp;

链表是一�U�常用的�l�织有序数据的数据结构，它通过指针��一�p�d��数据节点�q�接成一条数据链�Q�是�U�性表的一�U�重要实现方式。相对于数组�Q�链表具有更好的动态性，建立链表时无需预先知道数据总量�Q�可以随机分配空��_��可以高效地在链表中的��L��位置实时插入或删除数据。链表的开销主要是访问的��序性和�l�织铄��I�间损失�?/p>

通常链表数据�l�构臛_��应包含两个域�Q�数据域和指针域�Q�数据域用于存储数据�Q�指针域用于建立与下一个节点的联系。按照指针域的组�l�以及各个节点之间的联系形式�Q�链表又可以分�ؓ单链表、双链表、��@环链表等多种�c�d��Q�下面分别给��几类常见链表�c�d��的示意图�Q?/p>

1�Q?单链�?/span>

�? 单链�?/strong>

单链表是最��单的一�c�链表，它的特点是仅有一个指针域指向后��节点�Q�next�Q�，因此�Q�对单链表的遍历只能从头臛_��Q�通常是NULL�I�指针）��序�q�行�?/p>
2�Q?双链�?/span>

�? 双链�?/strong>

通过设计前驱和后�l�两个指针域�Q�双链表可以从两个方向遍历，�q�是它区别于单链表的地方。如果打乱前驱、后�l�的依赖关系�Q�就可以构成"二叉�?�Q�如果再让首节点的前驱指向链表尾节点、尾节点的后�l�指向首节点�Q�如�?中虚�U�K��分）�Q�就构成了��@环链表；如果设计更多的指针域�Q�就可以构成各种复杂的树状数据结构�?/p>
3�Q?循环链表

循环链表的特�Ҏ��节点的后��指向首节炏V��前面已�l�给��Z��双��@环链表的�C�意图，它的特点是从��L��一个节点出发，沿两个方向的��M��一个，都能扑ֈ�链表中的��L��一个数据。如果去掉前驱指针，��是单��@环链表�?/p>
在Linux内核中��用了大量的链表结构来�l�织数据�Q�包括设备列表以及各�U�功能模块中的数据组�l�。这些链表大多采用在[include/linux/list.h]实现的一个相当精彩的链表数据�l�构。本文的后��部分��将通过�C�Z��详细介绍�q�一数据�l�构的组�l�和使用�?/p>

二�?Linux 2.6内核链表数据�l�构的实�?/span>

��管�q�里使用2.6内核作�ؓ讲解的基��Q�但实际�?.4内核中的链表�l�构�?.6�q�没有什么区别。不同之处在�?.6扩充了两�U�链表数据结构：链表的读拯��更新�Q�rcu�Q�和HASH链表�Q�hlist�Q�。这两种扩展都是��Z��最基本的list�l�构�Q�因此，本文主要介绍基本链表�l�构�Q�然后再��要介�l�一下rcu和hlist�?/p>
链表数据�l�构的定义很��单（节选自[include/linux/list.h]�Q�以下所有代码，除非加以说明�Q�其余均取自该文�Ӟ��Q?/p>

struct list_head { struct list_head *next, *prev; };

list_head�l�构包含两个指向list_head�l�构的指针prev和next�Q�由此可见，内核的链表具备双链表功能�Q�实际上�Q�通常它都�l�织成双循环链表�?/p>
和第一节介�l�的双链表结构模型不同，�q�里的list_head没有数据域。在Linux内核链表中，不是在链表结构中包含数据�Q�而是在数据结构中包含链表节点�?/p>
在数据结构课本中�Q�链表的�l�典定义方式通常是这��L��Q�以单链表�ؓ例）�Q?/p>

struct list_node { struct list_node *next; ElemType data; };

因�ؓElemType的缘故，�Ҏ��一�U�数据项�c�d��都需要定义各自的链表�l�构。有�l�验的C++�E�序员应该知道，标准模板库中�?lt;list>采用的是C++ Template�Q�利用模板抽象出和数据项�c�d��无关的链表操作接口�?/p>
在Linux内核链表中，需要用链表�l�织��h��的数据通常会包含一个struct list_head成员�Q�例如在[include/linux/netfilter.h]中定义了一个nf_sockopt_ops�l�构来描�q�Netfilter为某一协议族准备的getsockopt/setsockopt接口�Q�其中就有一个（struct list_head list�Q�成员，各个协议族的nf_sockopt_ops�l�构都通过�q�个list成员�l�织在一个链表中�Q�表头是定义在[net/core/netfilter.c]中的nf_sockopts�Q�struct list_head�Q�。从下图中我们可以看刎ͼ��q�种通用的链表结构避免了为每个数据项�c�d��定义自己的链表的�ȝ��。Linux的简捷实用、不求完��和标准的风��|��在这里体现得相当充分�?/p>
�? nf_sockopts链表�C�意�?/strong>

三�?链表操作接口

1. 声明和初始化

实际上Linux只定义了链表节点�Q��ƈ没有专门定义链表��_��那么一个链表结构是如何建立��h��的呢�Q�让我们来看看LIST_HEAD()�q�个宏：

#define LIST_HEAD_INIT(name) { &(name), &(name) } #define LIST_HEAD(name) struct list_head name = LIST_HEAD_INIT(name)

当我们用LIST_HEAD(nf_sockopts)声明一个名为nf_sockopts的链表头�Ӟ��它的next、prev指针都初始化为指向自己，�q�样�Q�我们就有了一个空链表�Q�因为Linux用头指针的next是否指向自己来判断链表是否�ؓ�I�：

static inline int list_empty(const struct list_head *head) { return head->next == head; }

除了用LIST_HEAD()宏在声明的时候初始化一个链表以外，Linux�q�提供了一个INIT_LIST_HEAD宏用于运行时初始化链表：

#define INIT_LIST_HEAD(ptr) do { \ (ptr)->next = (ptr); (ptr)->prev = (ptr); \ } while (0)

我们用INIT_LIST_HEAD(&nf_sockopts)来��用它�?/p>
2. 插入/删除/合�ƈ

a) 插入

寚w��表的插入操作有两�U�：在表头插入和在表��插入。Linux为此提供了两个接口：

static inline void list_add(struct list_head *new, struct list_head *head); static inline void list_add_tail(struct list_head *new, struct list_head *head);

因�ؓLinux链表是��@环表�Q�且表头的next、prev分别指向链表中的�W�一个和最末一个节点，所以，list_add和list_add_tail的区别�ƈ不大�Q�实际上�Q�Linux分别�?/p>

__list_add(new, head, head->next);

�?/p>

__list_add(new, head->prev, head);

来实��C��个接口，可见�Q�在表头插入是插入在head之后�Q�而在表尾插入是插入在head->prev之后�?/p>
假设有一个新nf_sockopt_ops�l�构变量new_sockopt需要添加到nf_sockopts链表��_��我们应当�q�样操作�Q?/p>

list_add(&new_sockopt.list, &nf_sockopts);

从这里我们看出，nf_sockopts链表中记录的�q�不是new_sockopt的地址�Q�而是其中的list元素的地址。如何通过链表讉K��到new_sockopt呢？下面会有详细介绍�?/p>
b) 删除

static inline void list_del(struct list_head *entry);

当我们需要删除nf_sockopts链表中添加的new_sockopt��Ҏ��Q�我们这么操作：

list_del(&new_sockopt.list);

被剔除下来的new_sockopt.list�Q�prev、next指针分别被设为LIST_POSITION2和LIST_POSITION1两个�Ҏ��|��q�样讄��是�ؓ了保证不在链表中的节炚w��不可讉K��--对LIST_POSITION1和LIST_POSITION2的访问都��引起页故障。与之相对应�Q�list_del_init()函数��节点从链表中解下来之后�Q�调用LIST_INIT_HEAD()��节点置为空铄��态�?/p>
c) 搬移

Linux提供了将原本属于一个链表的节点�U�d��到另一个链表的操作�Q��ƈ�Ҏ��插入到新链表的位�|�分��Z��c�：

static inline void list_move(struct list_head *list, struct list_head *head); static inline void list_move_tail(struct list_head *list, struct list_head *head);

例如list_move(&new_sockopt.list,&nf_sockopts)会把new_sockopt从它所在的链表上删除，�q�将其再铑օ�nf_sockopts的表头�?/p>
d) 合�ƈ

除了针对节点的插入、删除操作，Linux链表�q�提供了整个链表的插入功能：

static inline void list_splice(struct list_head *list, struct list_head *head);

假设当前有两个链表，表头分别是list1和list2�Q�都是struct list_head变量�Q�，当调用list_splice(&list1,&list2)�Ӟ��只要list1非空�Q�list1链表的内容将被挂接在list2链表上，位于list2和list2.next�Q�原list2表的�W�一个节点）之间。新list2链表��以原list1表的�W�一个节点�ؓ首节点，而尾节点不变。如图（虚箭头�ؓnext指针�Q�：

�? 链表合�ƈlist_splice(&list1,&list2)

当list1被挂接到list2之后�Q�作为原表头指针的list1的next、prev仍然指向原来的节点，��Z��避免引�v混�ؕ�Q�Linux提供了一个list_splice_init()函数�Q?/p>

static inline void list_splice_init(struct list_head *list, struct list_head *head);

该函数在��list合�ƈ到head链表的基��上，调用INIT_LIST_HEAD(list)��list讄��为空链�?/p>
3. 遍历

遍历是链表最�l�常的操作之一�Q��ؓ了方便核心应用遍历链表，Linux链表��遍历操作抽象成几个宏。在介绍遍历宏之前，我们先看看如何从链表中访问到我们真正需要的数据��V�?/p>
a) 由链表节点到数据��变�?/strong>

我们知道�Q�Linux链表中仅保存了数据项�l�构中list_head成员变量的地址�Q�那么我们如何通过�q�个list_head成员讉K��C��为它的所有者的节点数据呢？Linux为此提供了一个list_entry(ptr,type,member)宏，其中ptr是指向该数据中list_head成员的指针，也就是存储在链表中的地址��|��type是数据项的类型，member则是数据��类型定义中list_head成员的变量名�Q�例如，我们要访问nf_sockopts链表中首个nf_sockopt_ops变量�Q�则如此调用�Q?/p>

list_entry(nf_sockopts->next, struct nf_sockopt_ops, list);

�q�里"list"正是nf_sockopt_ops�l�构中定义的用于链表操作的节�Ҏ��员变量名�?/p>
list_entry的��用相当简单，相比之下�Q�它的实现则有一些难懂：

#define list_entry(ptr, type, member) container_of(ptr, type, member) container_of宏定义在[include/linux/kernel.h]中： #define container_of(ptr, type, member) ({ \ const typeof( ((type *)0)->member ) *__mptr = (ptr); \ (type *)( (char *)__mptr - offsetof(type,member) );}) offsetof宏定义在[include/linux/stddef.h]中： #define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)

size_t最�l�定义�ؓunsigned int�Q�i386�Q��?/p>
�q�里使用的是一个利用编译器技术的��技巧，卛_��求得�l�构成员在与�l�构中的偏移量，然后�Ҏ��成员变量的地址反过来得出属�ȝ��构变量的地址�?/p>
container_of()和offsetof()�q�不仅用于链表操作，�q�里最有趣的地�Ҏ��((type *)0)->member�Q�它��?地址强制"转换"为type�l�构的指针，再访问到type�l�构中的member成员。在container_of宏中�Q�它用来�l�typeof()提供参数�Q�typeof()是gcc的扩展，和sizeof()�c�M��Q�，以获得member成员的数据类型；在offsetof()中，�q�个member成员的地址实际上就是type数据�l�构中member成员相对于结构变量的偏移量�?/p>
如果�q�么说还不好理解的话�Q�不妨看看下面这张图�Q?/p>
�? offsetof()宏的原理

对于�l�定一个结构，offsetof(type,member)是一个常量，list_entry()正是利用�q�个不变的偏�U�量来求得链表数据项的变量地址�?/p>
b) 遍历�?/strong>

在[net/core/netfilter.c]的nf_register_sockopt()函数中有�q�么一�D�话�Q?/p>

…… struct list_head *i; …… list_for_each(i, &nf_sockopts) { struct nf_sockopt_ops *ops = (struct nf_sockopt_ops *)i; …… } ……

函数首先定义一�?struct list_head *)指针变量i�Q�然后调用list_for_each(i,&nf_sockopts)�q�行遍历。在[include/linux/list.h]中，list_for_each()宏是�q�么定义的：

#define list_for_each(pos, head) \ for (pos = (head)->next, prefetch(pos->next); pos != (head); \ pos = pos->next, prefetch(pos->next))

它实际上是一个for循环�Q�利用传入的pos作�ؓ循环变量�Q�从表头head开始，逐项向后�Q�next方向�Q�移动pos�Q�直臛_��回到head�Q�prefetch()可以不考虑�Q�用于预取以提高遍历速度�Q��?/p>
那么在nf_register_sockopt()中实际上��是遍历nf_sockopts链表。�ؓ什么能直接��获得的list_head成员变量地址当成struct nf_sockopt_ops数据��变量的地址呢？我们注意到在struct nf_sockopt_ops�l�构中，list是其中的�W�一��Ҏ��员，因此�Q�它的地址也就是结构变量的地址。更规范的获得数据变量地址的用法应该是�Q?/p>

struct nf_sockopt_ops *ops = list_entry(i, struct nf_sockopt_ops, list);

大多数情况下�Q�遍历链表的时候都需要获得链表节�Ҏ��据项�Q�也��是说list_for_each()和list_entry()��L��同时使用。对此Linux�l�出了一个list_for_each_entry()宏：

#define list_for_each_entry(pos, head, member) ……

与list_for_each()不同�Q�这里的pos是数据项�l�构指针�c�d��Q�而不�?struct list_head *)。nf_register_sockopt()函数可以利用�q�个宏而设计得更简单：

…… struct nf_sockopt_ops *ops; list_for_each_entry(ops,&nf_sockopts,list){ …… } ……

某些应用需要反向遍历链表，Linux提供了list_for_each_prev()和list_for_each_entry_reverse()来完成这一操作�Q��用方法和上面介绍的list_for_each()、list_for_each_entry()完全相同�?/p>
如果遍历不是从链表头开始，而是从已知的某个节点pos开始，则可以��用list_for_each_entry_continue(pos,head,member)。有时还会出现这�U�需求，即经�q�一�p�d��计算后，如果pos有��|��则从pos开始遍历，如果没有�Q�则从链表头开始，为此�Q�Linux专门提供了一个list_prepare_entry(pos,head,member)宏，��它的返回��g��为list_for_each_entry_continue()的pos参数�Q�就可以满��q�一要求�?/p>
4. 安全性考虑

在�ƈ发执行的环境下，链表操作通常都应该考虑同步安全性问题，��Z��方便�Q�Linux��这一操作留给应用自己处理。Linux链表自己考虑的安全性主要有两个斚w��Q?/p>
a) list_empty()判断

基本的list_empty()仅以头指针的next是否指向自己来判断链表是否�ؓ�I�，Linux链表另行提供了一个list_empty_careful()宏，它同时判断头指针的next和prev�Q�仅当两者都指向自己时才�q�回真。这主要是�ؓ了应付另一个cpu正在处理同一个链表而造成next、prev不一致的情况。但代码注释也承认，�q�一安全保障能力有限�Q�除非其他cpu的链表操作只有list_del_init()�Q�否则仍然不能保证安全，也就是说�Q�还是需要加锁保护�?/p>
b) 遍历时节点删�?/strong>

前面介绍了用于链表遍历的几个宏，它们都是通过�U�d��pos指针来达到遍历的目的。但如果遍历的操作中包含删除pos指针所指向的节点，pos指针的移动就会被中断�Q�因为list_del(pos)��把pos的next、prev�|�成LIST_POSITION2和LIST_POSITION1的特�D�倹{�?/p>
当然�Q�调用者完全可以自��q��存next指针佉K��历操作能够连贯�v来，但�ؓ了编�E�的一致性，Linux链表仍然提供了两个对应于基本遍历操作�?_safe"接口�Q�list_for_each_safe(pos, n, head)、list_for_each_entry_safe(pos, n, head, member)�Q�它们要求调用者另外提供一个与pos同类型的指针n�Q�在for循环中暂存pos下一个节点的地址�Q�避免因pos节点被释放而造成的断链�?/p>

四�?扩展

1. hlist

�? list和hlist

�_��求精的Linux链表设计者（因�ؓlist.h没有�|�名�Q�所以很可能��是Linus Torvalds�Q�认为双��_��next、prev�Q�的双链表对于HASH表来�?�q�于��费"�Q�因而另行设计了一套用于HASH表应用的hlist数据�l�构--单指针表头双循环链表�Q�从上图可以看出�Q�hlist的表头仅有一个指向首节点的指针，而没有指向尾节点的指针，�q�样在可能是��量的HASH表中存储的表头就能减��一半的�I�间消耗�?/p>
因�ؓ表头和节点的数据�l�构不同�Q�插入操作如果发生在表头和首节点之间�Q�以往的方法就行不通了�Q�表头的first指针必须修改指向新插入的节点�Q�却不能使用�c�M��list_add()�q�样�l�一的描�q�。�ؓ此，hlist节点的prev不再是指向前一个节点的指针�Q�而是指向前一个节点（可能是表��_��中的next�Q�对于表头则是first�Q�指针（struct list_head **pprev�Q�，从而在表头插入的操作可以通过一致的"*(node->pprev)"讉K��和修改前��p��点的next�Q�或first�Q�指针�?/p>
2. read-copy update

在Linux链表功能接口中还有一�p�d��?_rcu"�l�尾的宏�Q�与以上介绍的很多函��C��一对应。RCU�Q�Read-Copy Update�Q�是2.5/2.6内核中引入的新技术，它通过延迟写操作来提高同步性能�?/p>
我们知道�Q�系�l�中数据��d��操作�q�多于写操作�Q�而rwlock机制在smp环境下随着处理机增多性能会迅速下降（见参考资�?�Q�。针对这一应用背景�Q�IBM Linux技术中心的Paul E. McKenney提出�?��L��贝更�?的技术，�q�将其应用于Linux内核中。RCU技术的核心是写操作分�ؓ�?更新两步�Q�允许读操作在�Q何时候无阻访问，当系�l�有写操作时�Q�更新动作一直�g�q�到对该数据的所有读操作完成为止。Linux链表中的RCU功能只是Linux RCU的很��一部分�Q�对于RCU的实现分析已��出了本文所及，有兴��的读者可以自行参阅本文的参考资料；而对RCU链表的��用和基本链表的��用方法基本相同�?/p>

五�?�C�Z��

附�g中的�E�序除了能正向、反向输出文件以外，�q�无实际作用�Q�仅用于演示Linux链表的��用�?

��Z��便，例子采用的是用户态程序模板，如果需要运行，可采用如下命令编译：

gcc -D__KERNEL__ -I/usr/src/linux-2.6.7/include pfile.c -o pfile

因�ؓ内核链表限制在内核态��用，但实际上对于数据�l�构本��n而言�q��只能在核态运行，因此�Q�在�W�者的�~�译中��?-D__KERNEL__"开�?�ƺ骗"�~�译器�?/p>

参考资�?

�l�基癄�� http://zh.wikipedia.org�Q�一个在GNU Documentation License下发布的�|�络辞典�Q�自��p�Y件理�늚�延��Q�本文的"链表"概念即��用它的版本�?/li>
《Linux内核情景分析》，毛�d操先生的�q�本关于Linux内核的巨著几乎可以回�{�绝大部分关于内核的问题�Q�其中也包括内核链表的几个关键数据结构�?/li>
Linux内核2.6.7源代码，所有不明白的问题，只要潜心看代码，总能清楚�?/li>
Kernel Korner: Using RCU in the Linux 2.5 Kernel�Q�RCU主要开发者Paul McKenney 2003�q?0月发表于Linux Journal上的一��介�l�RCU的文章。在 http://www.rdrop.com/users/paulmck/rclock/上可以获得更多关于RCU的帮助�?

关于作�?/span>

杨沙�zԌ��目前在国防科技大学计算机学院攻读��Y件方向博士学位。对文中存在的技术问题，�Ƣ迎�?pubb@163.net质疑�?

鑫龙 2012-10-22 10:31 发表评论

5.Linux内核设计与实�?P39---linux2.6 CFS调度��法分析(�?

鑫龙 — Tue, 16 Oct 2012 08:30:00 GMT
1.概述
      CFS�Q�completely fair schedule�Q�是最�l�被内核采纳的调度器。它从RSDL/SD中吸取了完全公��^的思想�Q�不再跟�t�进�E�的睡眠旉��Q�也不再企图区分交互式进�E�。它��所有的�q�程都统一对待�Q�这��是公��^的含义。CFS的算法和实现都相当简单，众多的测试表明其性能也非�怼��?/span>

      CFS 背后的主要想法是�l�护�?/span>��d��提供处理器时间方面的�q��Q�公�q�x��）。这意味着应给�q�程分配相当数量的处理器。分�l�某个�Q务的旉��失去�q��Ӟ��意味着一个或多个��d��相对于其他�Q务而言未被�l�予相当数量的时��_��Q�应�l�失��d�^衡的��d��分配旉��Q�让其执行�?nbsp;

      CFS抛弃了时间片�Q�抛弃了复杂的算法，从一个新的�v点开始了调度器的新时代，最开始的2.6.23版本�Q�CFS提供一�?/span>虚拟的时�?span style="font-family: 宋体, Arial; background-color: #fffcf3; ">�Q�所有进�E�复用这个虚拟时钟的旉��Q?/span>CFS��时钟的概念从底层体�pȝ��关的��g中抽象出来，�q�程调度模块直接和这个虚拟的旉��接口而不必再为硬件时钟操作而操�?span style="font-family: 宋体, Arial; background-color: #fffcf3; ">�Q�如此一来，整个�q�程调度模块��完整了�Q�从旉��到调度算法，��C��同进�E�的不同�{�略�Q�全部都��p��拟系�l�提供，也正是在�q�个新的内核�Q�引入了调度�c�R��因此新的调度器��是不同�Ҏ��的�q�程在统一的虚拟时钟下按照不同的策略被调度�?/span>

      按照作者Ingo Molnar的说法："CFS癑ֈ�之八十的工作可以用一句话概括�Q?/span>CFS在真实的��g上模拟了完全理想的多��d��处理�?span style="font-family: 宋体, Arial; background-color: #fffcf3; ">"。在“完全理想的多��d��处理�?“下，每个�q�程都能同时获得CPU的执行时�?span style="font-family: 宋体, Arial; background-color: #fffcf3; ">。当�pȝ��中有两个�q�程�Ӟ��CPU的计��时间被分成两䆾�Q�每个进�E�获�?0%。然而在实际的硬件上�Q�当一个进�E�占用CPU�Ӟ��其它�q�程��必��ȝ��待。这��׃�生了不公�q��?/span>

2.相关概念
调度实体(sched entiy)�Q�就是调度的对象�Q�可以理解�ؓ�q�程�?/span>
虚拟�q�行旉��(vruntime)�Q�即每个调度实体的运行时间。�Q务的虚拟�q�行旉��小�Q?意味着��d��被允许访问服务器的时间越�?— 其对处理器的需求越高�?/span>
公��^调度队列(cfs_rq)�Q�采取公�q��度的调度实体的运行队列�?/span>

3.CFS的核心思想
      全公�q��度器�Q�CFS�Q�的设计思想是：在一个真实的��g上模型化一个理想的、精��的多�Q务CPU。该理想CPU模型�q�行�?00%的负荗��在�_�� q�等速度下�ƈ行运行每个�Q务，每个��d��q�行�?/n速度下，即理想CPU有n个�Q务运行，每个��d��的速度为CPU整个负荷�?/n�?/span>
      �׃��真实��g上，每次只能�q�行一个�Q务，�q�就得引�?虚拟�q�行旉��"�Q�virtual runtime�Q�的概念�Q�虚拟运行时间�ؓ一个�Q务在理想CPU模型上执行的下一个时间片(timeslice)。实际上�Q�一个�Q务的虚拟�q�行旉��虑到运行�Q务��L��的实际运行时间�?nbsp;

      CFS 背后的主要想法是�l�护�?/span>��d��提供处理器时间方面的�q��Q�公�q�x��）�?span style="font-family: 宋体, Arial; background-color: #fffcf3; ">CFS��Z��体现的公�q��现在2个方�?/span>
(1)�q�程的运行时间相�{?/strong>
      CFS 在叫�?/span>虚拟�q�行�?/em> 的地方维持提供给某个��d��的时间量。�Q务的虚拟�q�行时越��，意味着��d��被允许访问服务器的时间越�?— 其对处理器的需求越高�?/span>
            假设runqueue中有n个进�E�，当前�q�程�q�行�?10ms。在“完全理想的多��d��处理�?#8221;中，10ms应该�q�_��l�n个进�E?不考虑各个�q�程的nice�?�Q�因此当前进�E�应得的旉��?10/n)ms�Q�但是它却运行了10ms。所以CFS��惩�|�当前进�E�，使其它进�E�能够在下次调度时尽可能取代当前�q�程。最�l�实现所有进�E�的公��^调度�?/span>

(2)睡眠的进�E�进行补�?/strong>
      CFS �q�包含睡眠公�q�x��念以便确保那些目前没有运行的��d��Q�例如，�{�待 I/O�Q�在其最�l�需要时获得相当份额的处理器�?nbsp;

      CFS调度器的�q�行旉��是O(logN)�Q�而以前的调度器的�q�行旉��是O(1)�Q�这是不是就是说CFS的效率比O(1)的更差呢�Q?/span>
      �{�案�q�不是那��P��我们知道 CFS调度器下的运行队列是��Z��U�黑树组�l�的�Q�找��Z��一个进�E�就是截下左下角的节点，固定旉��完成�Q�所谓的O(logN)指的是插入时��_��可是�U�黑树的�l?计性能是不错的�Q�没有多大概率真的用得了那么多时��_��因�ؓ�U�节点和黑节点的�Ҏ��排列方式既保证了树的一定程度的�q��Q�又不至于花太多的时间来�l�持�q�种�q?衡，插入操作大多数情况下都可以很快的完成�Q�特别是对于�l�织得相当好的数据�?/span>

4.CFS的实�?/strong>
4.1 2.6.23 VS 2.6.25
      �?.6.23内核中，刚刚实现的CFS调度器显得很��x��Q�每�ơ的旉��滴答中都会将当前�q�程先出队，推进其虚拟时钟和�pȝ��虚拟旉��后再入队�Q�然后判断红�?树的左下角的�q�程是否�q�是当前�q�程而抉择是否要调度�Q�这�U�调度器的key的计��是用当前的虚拟旉��减去待计��进�E�的�{�待旉��Q�如果该计算�q�程在运行，那么其等待时间就是负��|��q�样�Q�等待越长的�q�程key��小�Q�从而越�Ҏ��被选中投入�q�行�Q?/span>
      �?.6.25内核以后实现了一�U�更为简单的方式�Q�就是设�|�一个运行队列的虚拟旉��Q�它单调增长�q�且跟踪该队列的最��虚拟时钟的�q�程�Q�key值由�q�程的vruntime和队列的虚拟旉��的差��D��，�q�种方式��是真正的追�Ӟ�� ?.6.23实现的简单，但是很��y妙，不必在每�ơ时钟滴�{�中都将当前�q�程出队�Q�入队，而是�Ҏ��当前�q�程实际�q�行的时间和理想应该�q�行的时间判断是否应该调度�?/span>

4.2�U�黑�?/strong>
      与之前的 Linux 调度器不同，它没有将��d��l�护在运行队列中�Q�CFS �l�护了一个以旉��为顺序的�U�黑树（参见下图�Q��?nbsp;�U�黑�?/em> 是一个树�Q�具有很多有��、有用的属性。首先，它是自��^衡的�Q�这意味着树上没有路径比�Q何其他�\径长两倍以上�?�W�二�Q�树上的�q�行�?O(log n) 旉��发生�Q�其�?nbsp;n 是树中节点的数量�Q�。这意味着您可以快速高效地插入或删除�Q务�?nbsp;

      ��d��存储在以旉��为顺序的�U�黑树中�Q�由 sched_entity 对象表示�Q�，对处理器需求最多的��d�� Q�最低虚拟运行时�Q�存储在树的左侧�Q�处理器需求最��的��d��Q�最高虚拟运行时�Q�存储在树的右侧�?��Z��公��^�Q�调度器先选取�U�黑树最左端的节点调度�ؓ下一个以便保持公�q�x��。�Q务通过��其�q�行旉��d��到虚拟运行时�Q?说明其占�?CPU 的时��_��然后如果可运行，再插回到树中。这��P��树左侧的��d��p��l�予旉��q�行了，树的内容从右侧迁�U�d��左侧以保持公�q��?因此�Q�每个可�q�行的�Q务都会追赶其他�Q务以�l�持整个可运行�Q务集合的执行�q��?nbsp;

4.3 CFS内部原理
      Linux 内的所有�Q务都��q��?task_struct 的�Q务结构表�C�。该�l�构完整地描�q�C��d��q�包括了��d��的当前状态、其堆栈、进�E�标识、优先��Q�静态和动态）�{�等。您可以�?./linux/include/linux/sched.h 中找到这些内容以及相关结构�?但是因�ؓ不是所有�Q务都是可�q�行的，您在 task_struct 中不会发��C�Q何与 CFS 相关的字�D�c�?相反�Q�会创徏一个名�?sched_entity 的新�l�构来跟�t�调度信息（参见下图�Q��?/span>

      树的栚w��过 rb_root 元素通过 cfs_rq �l�构�Q�在 ./kernel/sched.c 中）引用。红黑树的叶子不包含信息�Q�但是内部节点代表一个或多个可运行的��d��。红黑树的每个节炚w��?rb_node 表示�Q�它只包含子引用和父对象的颜艌Ӏ?rb_node 包含�?sched_entity �l�构中，该结构包�?rb_node 引用、负载权重以及各�U�统计数据。最重要的是�Q?sched_entity 包含 vruntime�Q?4 位字�D�）�Q�它表示��d��q�行的时间量�Q��ƈ作�ؓ�U�黑树的索引�?最后，task_struct 位于��端�Q�它完整地描�q�C�Q务�ƈ包含 sched_entity �l�构�?nbsp;

      CFS 调度函数非常��单�?�?./kernel/sched.c 中的 schedule() 函数中，它会先抢占当前运行�Q务（除非它通过 yield() 代码先抢占自己）。注�?CFS 没有真正的时间切片概�는�于抢占，因�ؓ抢占旉��是可变的�?当前�q�行��d��Q�现在被抢占的�Q务）通过�?put_prev_task 调用�Q�通过调度�c�）�q�回到红黑树�?�?schedule 函数开始确定下一个要调度的�Q务时�Q�它会调�?pick_next_task 函数。此函数也是通用的（�?./kernel/sched.c 中）�Q�但它会通过调度器类调用 CFS 调度器�?CFS 中的 pick_next_task 函数可以�?./kernel/sched_fair.c�Q�称�?pick_next_task_fair()�Q�中扑ֈ��?此函数只是从�U�黑树中获取最左端的�Q务�ƈ�q�回相关 sched_entity。通过此引用，一个简单的 task_of() 调用��定�q�回�?task_struct 引用。通用调度器最后�ؓ此�Q务提供处理器�?/span>

4.4 CFS的优先��
      CFS 不直接��用优先��而是��其用作允许��d��执行的时间的衰减�p�L��?低优先��d��h��更高的衰减系敎ͼ�而高优先�U��Q务具有较低的衰减�p�L��?�q�意味着与高优先�U��Q务相比，低优先��d��允许��d��执行的时间消耗得更快�?�q�是一个绝妙的解决�Ҏ��Q�可以避免维护按优先�U�调度的�q�行队列�?/span>

鑫龙 2012-10-16 16:30 发表评论

4.Linux内核设计与实�?P31---��析�q�程�l�结关键do_exit(�?

鑫龙 — Mon, 15 Oct 2012 03:52:00 GMT

�q�程在退出时�Q�必��释攑֮�所拥有的资源，�q��过某种方式告诉父进�E�。进�E�的退��Z��般是昄��或隐式地调用了eixt(),或者接受了某种信号。不�q�什么原因退出，最�l�都调用了do_exit�?/span>

用于�q�程退出的�pȝ��调用有两个exit和exit_group�Q�exit只是�l�止某个�q�程�Q�而exit_group整个�U�程中的�q�程。它们在内核中的服务函数分别为sys_exit和sys_exit_group�Q�它们又分别调用了do_exit和do_group_exit。而do_group最�l�又调用了do_exit�?/span>

do_exit定义在kernel/exit.c中：
僉|��q�程�Q�僵死进�E�是一个进�E�已�l�退出，它的内存和资源已�l�释放掉了，但是位了时系�l�在它退出后能够获得它的退出状态等信息�Q�它的进�E�描�q�符仍然保留�?/span>
一个进�E�退出时�Q�它的父�q�程会接收到一个SIGCHLD信号�Q�一般情况下�q�个信号的处理函��C��执行wait�p�d��函数�{�待子进�E�的�l�束。从子进�E�退出到父进�E�调用wait(子进�E�结�?的这�D�|��_��子进�E�称为僵死进�E�。执行ps –ef命��o�?#8220;z”�l�尾的�ؓ僉|��q�程�?/span>

僉|��q�程很特�D�，它没有�Q何可执行代码�Q�不会被调度�Q�只有一个进�E�描�q�符用来记录退出等状态，除此之外不再占用其他��M��资源�?/span>

如果僉|��q�程的父�q�程没有调用wait�Q�则该进�E�会一直处于僵�ȝ��态。如果父�q�程�l�束�Q�内�怼�在当前线�E�组里�ؓ其找一个父�q�程�Q�如果没扑ֈ�则把init作�ؓ其父�q�程�Q�此时新的父�q�程��负责清楚其�q�程。如果父�q�程一直不�l�束�Q�该�q�程会一直僵歅R��在root下用kill -9 也不能将其杀歅R�?/span>

下面只对do_exit重点地方解析下：

struct task_struct *tsk = current;//获取当前要释放进�E�的�q�程描述�W?/span>

exit_signals(tsk);  /* sets PF_EXITING 以免内和其他部分讉K��该进�E?/

exit_mm(tsk);

    if (group_dead)
        acct_process();
    trace_sched_process_exit(tsk);

    exit_sem(tsk);
    exit_files(tsk);
    exit_fs(tsk);
    check_stack_usage();

/*更新父子关系�Q��ƈ告诉父进�E�正在退�?/
    exit_notify(tsk, group_dead);
/*切换到其他进�E?/
    schedule();
    exit_thread();

鑫龙 2012-10-15 11:52 发表评论

3.Linux内核设计与实�?P27---��析�q�程创徏的写时拷�?�?

鑫龙 — Mon, 15 Oct 2012 03:18:00 GMT
今天看到写时拯��q�个概念�Q�当时一下没有理解，后来查看一些网上的资料�Q�找��C��q�篇文章�Q�里面的那䆾个小�E�序能够很好的说明进�E�创建写时拷贝的概念。怕以后找不到��p�{载了。嘿�ѝ�?/span>
下面是那��文章的原文�Q?/span>

Linux�q�程创徏�Q�子�q�程�?父进�E�资�?#8220;写时拯��”的证�?nbsp;    传统的fork()�pȝ��调用直接把所有的资源复制�l�新创徏的进�E�。这�U�实现过于简单�ƈ且效率低下，因�ؓ它拷贝的数据或许可以�׃�n(This approach is significantly na?ve and inefficient in that it copies much data that might otherwise be shared.)。更�p�糕的是�Q�如果新�q�程打算立即执行一个新的映像，那么所有的拯��都将前功��弃�?/span>
Linux的fork()使用写时拯�� (copy- on-write)��实现。写时拷贝是一�U�可以推�q�甚至避免拷贝数据的技术�?/span>内核�?时�ƈ不复制整个进�E�的地址�I�间�Q�而是让父子进�E�共享同一个地址�I�间。只用在需要写入的时候才会复制地址�I�间�Q�从而��各个�q�行拥有各自的地址�I�间。也��是 ��_��资源的复制是在需要写入的时候才会进行，在此之前�Q�只有以只读方式�׃�n。这�U�技术��地址�I�间上的��늚�拯��被推�q�到实际发生写入的时候。在��|��本不会被写入的情况下---例如�Q�fork()后立��x��行exec()�Q�地址�I�间��无需被复制了。fork()的实际开销��是复制父进�E�的��表以及�l�子�q�程创徏一个进�E�描�q�符。下列程序可证明写时拯��Q?br />
#include
#include

int data = 10;

int child_process()
{
printf("Child process %d, data %dn",getpid(),data);
data = 20;
printf("Child process %d, data %dn",getpid(),data);
while(1);
}

int main(int argc, char* argv[])
{
if(fork()==0) {
child_process();
}else{
      sleep(1);
      printf("Parent process %d, data %dn",getpid(), data);
      while(1);
}
}
�q�行�l�果
Child process 6427, data 10
Child process 6427, data 20
Parent process 6426, data 10

�W?个Child process 6427, data 10是因为子�q�程创徏时task_struct的mm直接拯��自parent的mm�Q�第2个Child process 6427, data 20是因为子�q�程�q�行�?#8220;写时拯��”�Q�有了自��q��dataa�Q�第3个Parent process 6426, data 10输出10是因为子�q�程的data和父�q�程的data不是同一份�?br style="word-wrap: break-word; " /> 如果把上�q�程序改为：
#include
#include
#include

int data = 10;

int child_process()
{
printf("Child process %d, data %dn",getpid(),data);
data = 20;
printf("Child process %d, data %dn",getpid(),data);
while(1);
}

int main(int argc, char* argv[])
{
void **child_stack;
child_stack = (void **) malloc(16384);
  clone(child_process, child_stack, CLONE_VM|CLONE_FILES|CLONE_SIGHAND, NULL);

sleep(1);
printf("Parent process %d, data %dn",getpid(), data);
while(1);
}

�q�行�l�果��是
Child process 6443, data 10
Child process 6443, data 20
Parent process 6442, data 20

�׃��使用了CLONE_VM创徏�q�程�Q�子�q�程的mm实际直接指向父进�E�的mm�Q�所以data是同一份。改变父子进�E�的data都会互相看到�?/span>

鑫龙 2012-10-15 11:18 发表评论

2.Linux内核设计与实�?P25---��析遍历子进�E�方法（利用list_for_each�Q?�?

鑫龙 — Mon, 15 Oct 2012 02:57:00 GMT
list_for_each遍历子进�E�方法，��Z��分析下container_of宏的实现�q�程

Linux�pȝ��中的每个�q�程都有一个父�q�程�Q�init�q�程除外�Q�；每个�q�程�q�有0个或多个子进�E�。在�q�程描述�W�中parent指针指向其父�q�程�Q�还有一个名为children的子�q�程链表�Q�父�q�程task_struct中的children相当于链表的表头�Q��?/span>
而我们可以��用list_for_each(/include/linux/list.h)来依�ơ遍历访问子�q�程�Q?/span>
struct task_struct *task;
struct list_head *list;
list_for_each(list, ¤t->children) {
   task = list_entry(list, struct task_struct, sibling);
}
其中task即�ؓ某个子进�E�的地址
首先需要说明一点task_struct中的children指针指向其某个子�q�程的进�E�描�q�符task_struct中children的地址�Q�而非直接指向某个子进�E�的地址�Q�也��是说子�q�程链表中存攄��仅仅是各个task_struct成员children的地址�?/span>
我们查看源文件找到list_for_each的定义：
#define list_for_each(pos, head) \
for (pos = (head)->next; prefetch(pos->next), pos != (head); \
        pos = pos->next)
从上可以看出list_for_each其实��是一个for循环�Q�在�|�上看到prefetch()是一个预抓取的函敎ͼ�我�ƈ不理解它�Q�哪位大牛知道的讲下�?/span>�Q�，不过�q�个对for�Q�）�q�没有多大的影响。for()实现的就是一个children链表的遍历，而由children的地址如何取到task_struct的地址呢，它是由list_entry宏来实现的�?/span>
我们先给出所需函数或宏的源代码
list_entry(/include/linux/list.h)
#define list_entry(ptr, type, member) \
container_of(ptr, type, member)
---------------------------------------------------
container_of(include/linux/kernel.h)
#define container_of(ptr, type, member) ({ \
const typeof( ((type *)0)->member ) *__mptr = (ptr); \
(type *)( (char *)__mptr - offsetof(type,member) );})
-------------------------------------------
offsetof(/include/linux/stddef.h)
#define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER)
对于list_entry宏来说ptr在这里�ؓ指向children链表的指针，type为task_struct�l�构体的�c�d��Q�member为链表成员的变量名，即children�?/span>
container_of()思�\为先求出�l�构体成员member(即children)在结构体(即task_struct)中的偏移量，然后再根据member的地址(即ptr)来求出结构体(即task_struct)的地址�?/span>

哇哈�?/span>  下面是我觉得最�l�典的地�?(type *)0)->member�Q�他��地址0强制转换为type�c�d��的指针，然后再指向成员member�Q�此�?(type *)0)->member的地址即�ؓmember成员相对于结构体的位�U�R�?/span>
其中typeof()相当于C的sizeof()�Q?char *)__mptr�q�个强制转换用来计算偏移字节量，size_t被定义�ؓunsigned int �c�d��?/span>

      �q�样�q�个�q�程��׃��隄��解了�?/span>

PS�Q�网上找到的list_entry宏定义的另一个版本（有�h说是老版本kernel里面的）�Q�其实是一��L��Q�大家自��q��解吧。^_^
#define list_entry(ptr, type, member) \
((type *)((char *)(ptr)-(unsigned long)(&((type *)0)->member)))

鑫龙 2012-10-15 10:57 发表评论

1.Linux内核设计与实�?P23---��析current��L��task_struct的过�E?�?

鑫龙 — Mon, 15 Oct 2012 02:37:00 GMT
Linux通过slab分配器动态分配task_struct�l�构�Q�该�l�构定义在了文�g中，�q�程描述�W�中包含一个具体进�E�的所有信息，各个�q�程的task_struct存放在它们内核栈的尾端。在栈底�Q�对于向下增长的栈）或栈��Ӟ��对于向上增长的栈�Q�创��Z��个新的结构struct thread_info。利用这个新的机构来�q�速的扑ֈ�task_struct的位�|��?/span>
  下面是kernel2.6.32.10里task_struct的定义（对于x86�c�d��的CPU来说文�g位于�Q�arch/x86/include/asm /include/asm/thread_info.h�Q�：
struct thread_info {
struct task_struct *task; /* main task structure */
struct exec_domain *exec_domain; /* execution domain */
__u32 flags; /* low level flags */
__u32 status; /* thread synchronous flags */
__u32 cpu; /* current CPU */
int preempt_count; /* 0 => preemptable, <0 => BUG */
mm_segment_t addr_limit;
struct restart_block restart_block;
void __user *sysenter_return;
#ifdef CONFIG_X86_32
unsigned long          previous_esp; /* ESP of the previous stack in case of nested (IRQ) stacks*/
__u8 supervisor_stack[0];
#endif
int uaccess_err;
};
其中的task的值就为task_struct的位�|��?/span>
kernel利用current宏寻找task_struct的位�|�，假设栈的大小�?k(13个二�q�制�?�Q�我们可以将�q�程栈的地址的后13位屏蔽掉�Q�这样得到的刚好��是�q�程栈的起始地址�Q�而thread_info刚好��是位于�q�程栈的底部�Q�所以进�E�栈的�v始地址��是struct thread_info的地址�Q�得��C��thread_info的地址�Q�我们就很容易找到task_struct的地址了�?/span>
汇编实现�q�程�?/span>
movl  %-8192 ,%eax
andl %esp ,%eax
寄存器esp存放�q�程栈的当前地址�Q�eax最后存攄��是�q�程栈的起始地址。current使用current_thread_info来实现这个过�E��?/span>
kernel源码�Q�对于x86�c�d��的CPU来说文�g位于arch/x86/include/asm //include/asm/thread_info.h�Q?/span>
/* how to get the current stack pointer from C */
register unsigned long current_stack_pointer asm("esp") __used;

/* how to get the thread information struct from C */
static inline struct thread_info *current_thread_info(void)
{
return (struct thread_info *)
(current_stack_pointer & ~(THREAD_SIZE - 1));
};
其中current_stack_pointer��E�栈的当前地址,THREAD_SIZE��E�栈的大��?/span>
所以current_thread_info()->task即�ؓtask_struct()的地址�?/span>

鑫龙 2012-10-15 10:37 发表评论

久久国产乱子精品免费女,A狠狠久久蜜臀婷色中文网,欧美精品九九99久久在观看

__builtin_expect 解惑

11.Linux内核设计与实�?P160---��序锁�ȝ�� (�?

10.Linux内核设计与实�?P148---自旋锁�ȝ�� (�?

9.Linux内核设计与实�?P91---中断和中断处理程�?(�?

6.Linux内核设计与实�?P57---�pȝ��调用(�?

8.Linux内核设计与实�?P77---list_for_each()与list_for_each_safe()的区�?(�?

7.Linux内核设计与实�?P69---深入分析 Linux 内核链表(�?

5.Linux内核设计与实�?P39---linux2.6 CFS调度���法分析(�?

4.Linux内核设计与实�?P31---���析�q�程�l�结关键do_exit(�?

3.Linux内核设计与实�?P27---���析�q�程创徏的写时拷�?�?

2.Linux内核设计与实�?P25---���析遍历子进�E�方法（利用list_for_each�Q?�?

1.Linux内核设计与实�?P23---���析current��L��task_struct的过�E?�?

5.Linux内核设计与实�?P39---linux2.6 CFS调度��法分析(�?

4.Linux内核设计与实�?P31---��析�q�程�l�结关键do_exit(�?

3.Linux内核设计与实�?P27---��析�q�程创徏的写时拷�?�?

2.Linux内核设计与实�?P25---��析遍历子进�E�方法（利用list_for_each�Q?�?

1.Linux内核设计与实�?P23---��析current��L��task_struct的过�E?�?