韩国av一区二区三区在线观看,国产精品久久网站,亚洲级视频在线观看免费1级

沙漠里的�� — Mon, 19 Apr 2010 00:30:00 GMT

��L��Q?br>牛肉�Q�土�?个，胡萝�?根，�z�葱、芹菜、圆白菜、西�U�柿各适量�Q�西�U�柿酱少量�?br>
做法�Q?br>1、将牛肉�z�净切块入锅�Q�锅里加水。煮开以后�Q�撇��L�Q沫，转小火慢炖两个小时左叟�?br>
2、土豆、洋葱切块，胡萝卜去皮切块，芹菜斜着切段�Q�圆白菜切大片�?br>
3、将所有的蔬菜都放入锅里，大火烧开后�{��火接着炖�?br>
4、西�U�柿切丁�Q�另起一锅热油，倒入西红柿丁和西�U�柿��q��炒至西红柿丁熟烂以后�Q�倒入
汤锅里，加盐调味�Q�再炖一个小时左叛_��可�?

沙漠里的�� 2010-04-19 08:30 发表评论

沙漠里的�� — Fri, 16 Apr 2010 03:38:00 GMT

本文作者：(x��)sodme
本文出处�Q�http://blog.csdn.net/sodme
声明�Q�本文可以不�l�作者同意�Q意�{载，但�Q何对本文的引用都��L��明作者、出处及(qi��ng)此声明信息。谢谢！�Q?br>
　　要了(ji��n)解此��文章中引用的本人写的另一��文章，请到以下地址�Q?br>http://m.shnenglu.com/zjl-1026-2001/archive/2009/08/15/93427.html

以上的这��文章是早在��d��的时候写的了(ji��n)�Q�当时正在作休闲�q�_��Q�一直在想着如何实现一个可扩充的支持百万�h在线的游戏��^収ͼ�后来思�\有了(ji��n)�Q�就写了(ji��n)那篇�ȝ��。文章的意思，重点在于阐述一个百万��在线的系�l�是如何实施的，倒没真正认真地考察�q�QQ游戏到底是不是那样实现的�?br>
　　�q�日在与业内人士讨论�Ӟ��提到QQ游戏的实现方式�ƈ不是我原来所想的那样�Q�于是，今天又认真抓�?ji��n)一下QQ游戏的包�Q�结果确如这位兄弟所�a��Q�QQ游戏的架构与我当初所设想的那个架构相差确实不��。下面，我重新给出QQ百万�U�在�U�的技术实现方案，�q�以此展开�Q�谈谈大型在�U�系�l�中的负载均衡机制的设计�?br>
　　从QQ游戏的登录及(qi��ng)游戏�q�程来看�Q�QQ游戏中，也至��分��Z��c?a class=mykeyword title=http://www.doserver.net/tag.php?tag=%E6%9C%8D%E5%8A%A1%E5%99%A8 target=_blank>服务�?/font>。它们是�Q?br>　　�W�一层：(x��)登陆/账号服务�?Login Server)�Q�负责验证用戯��n份、向客户端传送初始信息，从QQ聊天软�g的封包常识来看，�q�些初始信息可能包括“�?x��)话密�?#8221;此类的信息，以后客户端与后箋服务器的通信��׃��用此�?x��)话密钥�q�行�w�䆾验证和信息加密；
　　�W�二层：(x��)大厅服务�?��C��q�么叫吧, Game Hall Server)�Q�负责向客户端传递当前游戏中的所有房间信息，�q�些戉K��信息包括�Q�各戉K��的连接IP�Q�PORT�Q�各戉K��的当前在�U��h敎ͼ�戉K��名称�{�等�?br>　　�W�三层：(x��)游戏逻辑服务�?Game Logic Server)�Q�负责处理房间逻辑�?qi��ng)房间内的桌子逻辑�?br>
　　从静(r��n)态的表述来看�Q�以上的三层�l�构��g��与我以前写的那篇文章相比�q�没有太大的区别�Q�事实上�Q�重�Ҏ(gu��)��它的工作��程�Q�QQ游戏的通信��程与我以前的设惛_��谓大相径庭，其设计思想和技术水�q�确实非�怼��U�。具体来��_(d��)��QQ游戏的通信�q�程是这��L(f��ng)��Q?br>
　　1.由Client向Login Server发送�̎号及(qi��ng)密码�{�登录消息，Login Server�Ҏ(gu��)��校验�l�果�q�回相应信息。可以设想的是，如果Login Server通过�?ji��n)Client的验证，那么它会(x��)通知其它Game Hall Server或将通过验证的消息以�?qi��ng)�?x��)话密钥放在Game Hall Server也可以取到的地方。��M��Q�Login Server与Game Hall Server之间是可以共享这个校验成功消息的。一旦Client收到�?ji��n)Login Server�q�回成功校验的消息后�Q�Login Server�?x��)主动断开与Client的连接，以腾出socket资源。Login Server的IP信息�Q�是存放在QQGame\config\QQSvrInfo.ini里的�?br>
　　2.Client收到Login Server的校验成功等消息后，开始根据事先选定的游戏大厅入口登录游戏大厅，各个游戏大厅Game Hall Server的IP�?qi��ng)Port信息�Q�是存放在QQGame\Dirconfig.ini里的。Game Hall Server收到客户端Client的登录消息后�Q�会(x��)�Ҏ(gu��)��一定的�{�略军_��是否接受Client的登录，如果当前的Game Hall Server已经��C��(ji��n)上限或暂时不能处理当前玩家登录消息，则由Game Hall Server发消息给C(j��)lient�Q�以让Client重定向到另外的Game Hall Server��d��。重定向的IP�?qi��ng)端口信息，本地没有保存�Q�是通过数据包或一定的��法得到的。如果当前的Game Hall Server接受�?ji��n)该玩家的登录消息后�Q�会(x��)向该Client发送房间目录信息，�q�些信息的内�Ҏ(gu��)��上面已经提到。目录等消息发送完毕后�Q�Game Hall Server��x(ch��ng)��开与Client的连接，以腾出socket资源。在此后的时间里�Q�Client每隔30分钟�?x��)重新连接Game Hall Server�q�向其烦(ch��)要最新的戉K��目录信息�?qi��ng)在�U��h��C��息�?br>
　　3.Client�Ҏ(gu��)��列出的房间列表，选择某个戉K��q�入游戏。根据我的抓包结果分析，QQ游戏�Q��ƈ不是�l�每一个游戏房间都分配�?ji��n)一个单独的端口�q�行处理。在QQ游戏里，有很多房间是��q��的同一个IP和同一个端口。比如，在斗��C��一区，�?0个房��_(d��)��用的都是同一个IP和Port信息。这意味着�Q�这些房��_(d��)��在QQ游戏的服务器上，事实上，可能是同一个程序在处理�Q�！�Q�QQ游戏戉K��的�h��C��限是400人，不难推算�Q�QQ游戏单个服务器程序的用户承蝲量是2万，即QQ的一个游戏逻辑服务器程序最多可同时�?万个玩家保持TCP�q�接�q�保证游戏效率和品质�Q�更重要的是�Q�这样可以�ؓ(f��)腾讯省多��money呀�Q�！�Q�哇哦！QQ��实很牛。以2万的在线数还能保持这么好的游戏品质，��实不容易！QQ游戏的单个服务器�E�序�Q�管理的不再只是逻辑意义上的单个戉K��Q�而可能是许多逻辑意义上的戉K��。其实，对于服务器而言�Q�它?y��u)��是一个大区服务器或大区服务器的一部分�Q�我们可以把它理解�ؓ(f��)一个庞大的游戏地图�Q�它实现的也是分块处理。而对于每一张桌子上的打牌逻辑�Q�则是有一个统一的处理流�E�，50个房间的50�Q?00张桌子全��p��一个服务器�E�序�q�行处理(我不知道QQ游戏的具体打牌逻辑是如何设计的�Q�我惛_��有可能也是分区域的，分块�?。当�?d��ng)��以上�q�些只是服务器作的事�Q�针对于客户端而言�Q�客��L(f��ng)��只是在表��C��Q�将一个个戉K��单独�|�列�?ji��n)出来，�q�样作，是�ؓ(f��)便于玩家�q�行游戏以及(qi��ng)减少服务器的开销�Q�把�q�个大区中的�?00人放在一个集合内�q�行处理�Q�比如聊天信息，“�?00人广�?#8221;�?#8220;�?万�h�q�播”�Q�这是完全不同的两个概念�Q��?br>
　　4.需要特别说明的一炏V��进入QQ游戏戉K��后，直到点击某个位置坐下打开另一个程序界面，客户端的�E�序�Q�没有再创徏新的socket�Q�而仍然��用原来大厅房间客��L(f��ng)��跟游戏逻辑服务器交互用的socket。也��是��_(d��)��q�是两个�q�程��q��的同一个socket�Q�不要小看这一炏V��如果你在创建桌子客��L(f��ng)��E�序后又新徏�?ji��n)一个新的socket与游戏逻辑服务器进行通信�Q�那么由此带来的玩家�q�入、退出、逃跑�{�消息会(x��)带来非常�ȝ��(ch��)的数据同步问题，俺在刚开始的时候就深受其害。而一旦共用了(ji��n)同一个socket后，你如果退出桌子，服务器不涉及(qi��ng)释放socket的问题，所以，�q�里��少�?ji��n)很多的数据同步问题。关于多个进�E�如何共享同一个socket的问题，请去google以下内容�Q�WSADuplicateSocket�?br>
　　以上便是我根据最新的QQ游戏抓包�l�果分析得到的QQ游戏的通信��程�Q�当�?d��ng)��q�个��程更多的是客户端如何与服务器之间交互的�Q�却没有涉及(qi��ng)到服务器彼此之间是如何通信和作数据同步的。关于服务器之间的通信��程�Q�我们只能基于自��q��l�验和猜惻I��得出以下��x(ch��ng)��Q?br>
　　1.Login Server与Game Hall Server之前的通信问题。Login Server是负责用户验证的�Q�一旦验证通过之后�Q�它要设法让Game Hall Server知道�q�个消息。它们之前实��C��息交��的途径�Q�我惛_��能有�q�样几条�Q�a. Login Server��通过验证的用户存攑ֈ�临时数据库中�Q�b.　Login Server��验证通过的用户存攑֜�内存?sh��)��，当然�Q�这个信息，应该是全局可访问的�Q�就是说所有QQ的Game Hall Server都可以通过服务器之间的数据包通信去获得这��L(f��ng)��信息�?br>
　　2.Game Hall Server的最新房间目录信息的取得。这个信息，是全局的，也就是整个游戏中�Q�只保留一个目录。它的信息来源，可以由底层的戉K��服务器逐��报上来，报给谁？我认为就如保存的全局��d��列表一��P��它报�l�保存全局��d��列表的那个服务器或数据库�?br>
　　3.在QQ游戏中，同一�c�d��的游戏，无法打开两上以上的游戏房间。这个信息的判定�Q�可以根据全局信息来判定�?br>
　　以上关于服务器之间如何通信的内容，均属于个人猜惻I��QQ到底怎么作的�Q�恐怕只有等大家中的某一位进�?ji��n)腾讯之后才知道了(ji��n)。呵��c(di��n)��不�q�，有一�Ҏ(gu��)��可以肯定的，在整个服务器架构中，应该有一个地�Ҏ(gu��)��专门保存?sh��)��(ji��n)全局的登录玩家列表，只有�q�样才能保证玩家不会(x��)重复��d��以及(qi��ng)�q�入多个相同�c�d��的房间�?br>
　　在前面的描述中，我曾�l�提到过一个问题：(x��)当登录当前Game Hall Server不成功时�Q�QQ游戏服务器会(x��)选择让客��L(f��ng)��重定向到另位的服务器�ȝ?r��n)�录，事实上，QQ聊天服务器和MSN服务器的��d��也是�c�M��的，它也存在��d��重定向问题�?br>
　　那么�Q�这��引��Z��(ji��n)另外的问题，��p��来作�q�个�{�略选择�Q�以�?qi��ng)由谁来提供�q�样的选择资源�Q�这��L(f��ng)��处理�Q�便是负责负载均衡的服务器的处理范围�?ji��n)。由QQ游戏的通信�q�程分析�z��出来的针对负责均衡及(qi��ng)百万�U�在�U�系�l�的更进一步讨论，��在下篇文章中��l��?br>
　　在此�Q�特别感谢网友tilly�?qi��ng)某位不侉K��露姓名的网友的讨论�Q�是你们让我军_��认真再抓一�ơ包探个�I�竟�?br>
　　<未完待箋>

沙漠里的�� 2010-04-16 11:38 发表评论

ADSL介绍

沙漠里的�� — Fri, 16 Apr 2010 02:33:00 GMT

ADSL�Q�全名Asymmetric Digital Subscriber Line�Q�译为非对称数字用户�U��\�Q�或非对�U�数字用��L(f��ng)��路（Aysmmetric Digital Subscriber Loop�Q��?br>
介绍�Q?br>
ADSL因�ؓ(f��)上行�Q�从用户到电(sh��)信服务提供商方向�Q�如上传动作�Q�和下行�Q�从�?sh��)信服务提供商到用户的方向，如下载动作�?j��)带宽不对�U�ͼ�即上行和下行的速率不相同）(j��)因此�U�Cؓ(f��)非对�U�数字用��L(f��ng)��路。它采用频分复用技术把普通的�?sh��)话�U�分成了(ji��n)�?sh��)话、上行和下行三个相对独立的信道，从而避免了(ji��n)�怺�之间的干扰。通常ADSL在不影响正常�?sh��)话通信的情况下可以提供最�?.5Mbps的上行速度和最�?4Mbps的下行速度�?br>
讑֤��Q?br>

ADSL是一�U?a title=异步传输模式 href="http://m.shnenglu.com/zh-cn/%E5%BC%82%E6%AD%A5%E4%BC%A0%E8%BE%93%E6%A8%A1%E5%BC%8F">异步传输模式�Q�ATM�Q��?/p>

在电(sh��)信服务提供商端，需要将每条开通ADSL业务的电(sh��)话线路连接在数字用户�U��\讉K��多�\复用�?/em>�Q�DSLAM�Q�上。而在用户端，用户需要��用一�?em>ADSL�l�端�Q�因为和传统�?a title=调制解调�?href="http://m.shnenglu.com/zh-cn/%E8%B0%83%E5%88%B6%E8%A7%A3%E8%B0%83%E5%99%A8">调制解调�?/font>�Q�Modem�Q�类��|��所以也被称�?#8220;�?#8221;�Q�来�q�接�?sh��)话�U��\。由于ADSL使用高频信号�Q�所以在两端�q�都要��?em>ADSL信号分离�?/em>��ADSL数据信号和普通音频电(sh��)话信号分��d��来，避免打电(sh��)话的时候出现噪韛_��扰�?/p>

通常的ADSL�l�端有一个电(sh��)话Line-In�Q�一�?a title=以太�|?href="http://m.shnenglu.com/zh-cn/%E4%BB%A5%E5%A4%AA%E7%BD%91">以太�|?/font>口，有些�l�端集成�?ji��n)ADSL信号分离器，�q�提供一个连接的Phone接口�?/p>

某些ADSL调制解调器��用USB接口与电(sh��)脑相�q�，需要在�?sh��)脑上安装指定的软�g以添加虚拟网卡来�q�行通信�?/p>
标准�Q?br>
传输标准

�׃��受到传输高频信号的限�Ӟ��ADSL需要电(sh��)信服务提供商端接入设备和用户�l�端之间的距��M��能超�q?千米�Q�也��是用户的电(sh��)话线�q�到�?sh��)话局的距��M��能超�q?千米�?/p>

ADSL讑֤�在传输中需要遵循以下标准之一�Q?/p>

ITU-T G.992.1(G.dmt)

G.dmt�Q�全速率�Q�下�?Mbps�Q�上�?96Kbps

ITU-T G.992.2(G.lite)

G.lite�Q�下�?.5Mbps�Q�上�?12Kbps

ITU-T G.994.1(G.hs)

可变比特率（VBR�Q?

ANSI T1.413 Issue #2

下行8Mbps�Q�上�?96Kbps

�q�有一些更快更新的标准�Q�但是目前还很少有电(sh��)信服务提供商使用�Q?/p>

ITU G.992.3/4
- ADSL2 下行12Mbps�Q�上�?.0Mbps
ITU G.992.3/4
- Annex J ADSL2 下行12Mbps�Q�上�?.5Mbps
ITU G.992.5
- ADSL2+ 下行24Mbps�Q�上�?.0Mbps
ITU G.992.5
- Annex M ADSL2+ 下行24Mbps�Q�上�?.5Mbps

当电(sh��)信服务提供商的设备端和用��L(f��ng)��端之间距��d��?.3千米的时候，�q�可以��用速率更高�?a title=VDSL href="http://m.shnenglu.com/zh-cn/VDSL">VDSL�Q�它的速率可以辑ֈ�下行55.2Mbps�Q�上�?9.2Mbps�?/p>

�|�络��d��标准

ADSL通常提供三种�|�络��d��方式�Q?/p>

桥接�Q�直接提供静(r��n)�?a title=IP href="http://m.shnenglu.com/zh-cn/IP">IP
PPPoA�Q�基于ATM的端对端协议
PPPoE�Q�基于以太网的端对端协议

后两�U�通常不提供静(r��n)态IP�Q�而是动态的�l�用户分配网�l�地址�?/p>

沙漠里的�� 2010-04-16 10:33 发表评论

[转蝲]GRUB2基础教程

沙漠里的�� — Thu, 18 Mar 2010 01:54:00 GMT

摘要: grub2基础教程-修订�?nbsp; &... 阅读全文

沙漠里的�� 2010-03-18 09:54 发表评论

[转蝲]POSIX �U�程详解-�W?部分

沙漠里的�� — Thu, 11 Mar 2010 03:54:00 GMT

[原文地址]http://www.ibm.com/developerworks/cn/linux/thread/posix_thread3/

本文�?POSIX �U�程三部曲系列的最后一部分�Q�Daniel ��详�l�讨论如何��用条件变量。条件变量是 POSIX �U�程�l�构�Q�可以让�(zh��n)�在遇到某些条�g�?#8220;唤醒”�U�程。可以将它们看作是一�U�线�E�安全的信号发送。Daniel 使用目前�(zh��n)�所学到的知识实��C��(ji��n)一个多�U�程工作�l�应用程序，本文��围�l�着�q�一�C�Z��而进行讨论�?/blockquote>
条�g变量详解

�?上一��文�?/font>�l�束�Ӟ��我描�q�C��(ji��n)一个比较特�D�的��N��Q�如果线�E�正在等待某个特定条件发生，它应该如何处理这�U�情况？它可以重复对互斥对象锁定和解锁，每次都会(x��)��(g��)查共享数据结构，以查找某个倹{��但�q�是在浪�Ҏ(gu��)��间和资源�Q�而且�q�种�J�忙查询的效率非�怽�。解册��个问题的最��x(ch��ng)��法是使用 pthread_cond_wait() 调用来等待特�D�条件发生�?

�?ji��n)�?pthread_cond_wait() 的作用非帔R��?-- 它是 POSIX �U�程信号发送系�l�的核心(j��)�Q�也是最难以理解的部分�?/p>
首先�Q�让我们考虑以下情况�Q�线�E��ؓ(f��)查看已链接列表而锁定了(ji��n)互斥对象�Q�然而该列表恰��y是空的。这一特定�U�程什么也�q�不�?-- 其设计意图是从列表中除去节点�Q�但是现在却没有节点。因此，它只能：(x��)

锁定互斥对象�Ӟ��U�程��调�?pthread_cond_wait(&mycond,&mymutex)。pthread_cond_wait() 调用相当复杂�Q�因此我们每�ơ只执行它的一个操作�?/p>
pthread_cond_wait() 所做的�W�一件事��是同时对互斥对象解锁（于是其它�U�程可以修改已链接列表）(j��)�Q��ƈ�{�待条�g mycond 发生�Q�这样当 pthread_cond_wait() 接收到另一个线�E�的“信号”�Ӟ��它将苏醒�Q�。现在互斥对象已被解锁，其它�U�程可以讉K��和修改已链接列表�Q�可能还?sh��)��(x��)添加项�?/p>
此时�Q�pthread_cond_wait() 调用�q�未�q�回。对互斥对象解锁�?x��)立卛_��生，但等待条�?mycond 通常是一个阻塞操作，�q�意味着�U�程��睡眠，在它苏醒之前不会(x��)消�?CPU 周期。这正是我们期待发生的情��c(di��n)��线�E�将一直睡眠，直到特定条�g发生�Q�在�q�期间不�?x��)发生�Q何浪�?CPU 旉��的繁忙查询。从�U�程的角度来看，它只是在�{�待 pthread_cond_wait() 调用�q�回�?/p>
现在�l�箋说明�Q�假讑֏�一个线�E�（�U�C��“2 ��L(f��ng)��E?#8221;�Q�锁定了(ji��n) mymutex �q�对已链接列表添加了(ji��n)一��V��在对互斥对象解锁之后，2 ��L(f��ng)��E�会(x��)立即调用函数 pthread_cond_broadcast(&mycond)。此操作之后�Q? ��L(f��ng)��E�将使所有等�?mycond 条�g变量的线�E�立卌��醒。这意味着�W�一个线�E�（仍处�?pthread_cond_wait() 调用中）(j��)现在��苏醒�?/p>
现在�Q�看一下第一个线�E�发生了(ji��n)什么。�?zh��n)�可能会(x��)认为�?2 ��L(f��ng)��E�调�?pthread_cond_broadcast(&mymutex) 之后�Q? ��L(f��ng)��E�的 pthread_cond_wait() �?x��)立卌��回。不是那��P��实际上，pthread_cond_wait() ��执行最后一个操作：(x��)重新锁定 mymutex。一�?pthread_cond_wait() 锁定�?ji��n)互斥对象，那么它将�q�回�q�允�?1 ��L(f��ng)��E��l�执行。那�Ӟ��它可以马上检查列表，查看它所感兴��的更改�?/p>

停止�q�回��！

那个�q�程非常复杂�Q�因此让我们先来回顾一下。第一个线�E�首先调用：(x��)

pthread_mutex_lock(&mymutex);

然后�Q�它��(g��)查了(ji��n)列表。没有找到感兴趣的东西，于是它调用：(x��)

pthread_cond_wait(&mycond, &mymutex);

然后�Q�pthread_cond_wait() 调用在返回前执行许多操作�Q?/p>

pthread_mutex_unlock(&mymutex);

它对 mymutex 解锁�Q�然后进入睡眠状态，�{�待 mycond 以接�?POSIX �U�程“信号”。一旦接收到“信号”�Q�加引号是因为我们�ƈ不是在讨��Z��l�的 UNIX 信号�Q�而是来自 pthread_cond_signal() �?pthread_cond_broadcast() 调用的信��P��(j��)�Q�它?y��u)�׃�?x��)苏醒。但 pthread_cond_wait() 没有立即�q�回 -- 它还要做一件事�Q�重新锁�?mutex�Q?/p>

pthread_mutex_lock(&mymutex);

pthread_cond_wait() 知道我们在查�?mymutex “背后”的变化，因此它��l�操作，为我们锁定互斥对象，然后才返回�?/p>

pthread_cond_wait() ��测�?/span>

现在已回��了(ji��n) pthread_cond_wait() 调用�Q��?zh��n)�应该了(ji��n)解了(ji��n)它的工作方式。应该能够叙�q?pthread_cond_wait() 依次执行的所有操作。尝试一下。如果理解了(ji��n) pthread_cond_wait()�Q�其余部分就相当�Ҏ(gu��)��Q�因此请重新阅读以上部分�Q�直到记住�ؓ(f��)止。好�Q�读完之后，能否告诉我在调用 pthread_cond_wait() �?�?/em>�Q�互斥对象必��d��于什么状态？pthread_cond_wait() 调用�q�回之后�Q�互斥对象处于什么状态？�q�两个问题的�{�案都是“锁定”。既然已�l�完全理解了(ji��n) pthread_cond_wait() 调用�Q�现在来�l�箋研究更简单的东西 -- 初始化和真正的发送信号和�q�播�q�程。到那时�Q�我们将�?x��)对包含了(ji��n)多�U�程工作队列�?C 代码�?ji��n)如指掌�?

初始化和清除

条�g变量是一个需要初始化的真实数据结构。以下就初始化的�Ҏ(gu��)��。首先，定义或分配一个条件变量，如下所�C�：(x��)

pthread_cond_t mycond;

然后�Q�调用以下函数进行初始化�Q?/p>

pthread_cond_init(&mycond,NULL);

瞧，初始化完成了(ji��n)�Q�在释放或废弃条件变量之前，需要毁坏它�Q�如下所�C�：(x��)

pthread_cond_destroy(&mycond);

很简单吧。接着讨论 pthread_cond_wait() 调用�?/p>

�{�待

一旦初始化�?ji��n)互斥对象和条�g变量�Q�就可以�{�待某个条�g�Q�如下所�C�：(x��)

pthread_cond_wait(&mycond, &mymutex);

��h��意，代码在逻辑上应该包�?mycond �?mymutex。一个特定条件只能有一个互斥对象，而且条�g变量应该表示互斥数据“内部”的一�U�特�D�的条�g更改。一个互斥对象可以用许多条�g变量�Q�例如，cond_empty、cond_full、cond_cleanup�Q�，但每个条件变量只能有一个互斥对象�?/p>

发送信号和�q�播

对于发送信号和�q�播�Q�需要注意一炏V��如果线�E�更�Ҏ(gu��)��些共享数据，而且它想要唤醒所有正在等待的�U�程�Q�则应��?pthread_cond_broadcast 调用�Q�如下所�C�：(x��)

pthread_cond_broadcast(&mycond);

在某些情况下�Q�活动线�E�只需要唤醒第一个正在睡眠的�U�程。假设�?zh��n)�只对队列��d��?ji��n)一个工作作业。那么只需要唤醒一个工作程序线�E�（再唤醒其它线�E�是不礼貌的�Q�）(j��)�Q?/p>

pthread_cond_signal(&mycond);

此函数只唤醒一个线�E�。如�?POSIX �U�程标准允许指定一个整敎ͼ�可以让�?zh��n)�唤醒一定数量的正在睡眠的线�E�，那就更完��了(ji��n)。但是很可惜�Q�我没有被邀(g��)请参加会(x��)议�?/p>

工作�l?/span>

我将演示如何创徏多线�E�工作组。在�q�个�Ҏ(gu��)��中，我们创徏�?ji��n)许多工作程序线�E�。每个线�E�都�?x��)检�?wq�Q?#8220;工作队列”�Q�，查看是否有需要完成的工作。如果有需要完成的工作�Q�那么线�E�将从队列中除去一个节点，执行�q�些特定工作�Q�然后等待新的工作到达�?/p>
与此同时�Q�主�U�程负责创徏�q�些工作�E�序�U�程、将工作��d��到队列，然后在它退出时攉��所有工作程序线�E�。�?zh��n)��?x��)遇到许多 C 代码�Q�好好准备吧�Q?/p>

队列

需要队列是��Z��两个原因。首先，需要队列来保存工作作业。还需要可用于跟踪已终止线�E�的数据�l�构。还记得前几��文章（请参阅本文结��֤��?参考资�?/font>�Q�中�Q�我曾提到过需要��用带有特定进�E�标识的 pthread_join 吗？使用“清除队列”�Q�称�?"cq"�Q�可以解��x(ch��ng)��法等�?��M��已终止线�E�的问题�Q�稍后将详细讨论�q�个问题�Q�。以下是标准队列代码。将此代码保存到文�g queue.h �?queue.c�Q?

queue.h

/* queue.h ** Copyright 2000 Daniel Robbins, Gentoo Technologies, Inc. ** Author: Daniel Robbins ** Date: 16 Jun 2000 */ typedef struct node { struct node *next; } node; typedef struct queue { node *head, *tail; } queue; void queue_init(queue *myroot); void queue_put(queue *myroot, node *mynode); node *queue_get(queue *myroot);

queue.c

/* queue.c ** Copyright 2000 Daniel Robbins, Gentoo Technologies, Inc. ** Author: Daniel Robbins ** Date: 16 Jun 2000 ** ** This set of queue functions was originally thread-aware. I ** redesigned the code to make this set of queue routines ** thread-ignorant (just a generic, boring yet very fast set of queue ** routines). Why the change? Because it makes more sense to have ** the thread support as an optional add-on. Consider a situation ** where you want to add 5 nodes to the queue. With the ** thread-enabled version, each call to queue_put() would ** automatically lock and unlock the queue mutex 5 times -- that's a ** lot of unnecessary overhead. However, by moving the thread stuff ** out of the queue routines, the caller can lock the mutex once at ** the beginning, then insert 5 items, and then unlock at the end. ** Moving the lock/unlock code out of the queue functions allows for ** optimizations that aren't possible otherwise. It also makes this ** code useful for non-threaded applications. ** ** We can easily thread-enable this data structure by using the ** data_control type defined in control.c and control.h. */ #include #include "queue.h" void queue_init(queue *myroot) { myroot->head=NULL; myroot->tail=NULL; } void queue_put(queue *myroot,node *mynode) { mynode->next=NULL; if (myroot->tail!=NULL) myroot->tail->next=mynode; myroot->tail=mynode; if (myroot->:head==NULL) myroot->head=mynode; } node *queue_get(queue *myroot) { //get from root node *mynode; mynode=myroot->head; if (myroot->head!=NULL) myroot->head=myroot->head->next; return mynode; }

data_control 代码

我编写的�q�不是线�E�安全的队列例程�Q�事实上我创��Z��(ji��n)一�?#8220;数据包装”�?#8220;控制”�l�构�Q�它可以是�Q何线�E�支持的数据�l�构。看一�?control.h�Q?/p>
control.h

#include typedef struct data_control { pthread_mutex_t mutex; pthread_cond_t cond; int active; } data_control;

现在�(zh��n)�看��C��(ji��n) data_control �l�构定义�Q�以下是它的视觉表示�Q?/p>
所使用�?data_control �l�构

囑փ�中的锁代表互斥对象，它允许对数据�l�构�q�行互斥讉K��。黄色的星代表条件变量，它可以睡眠，直到所讨论的数据结构改变�(sh��)ؓ(f��)止。on/off 开兌��C�整�?"active"�Q�它告诉�U�程此数据是否是�z�d��的。在代码中，我��用整�?active 作�ؓ(f��)标志�Q�告诉工作队列何时应该关闭。以下是 control.c�Q?/p>
control.c

/* control.c ** Copyright 2000 Daniel Robbins, Gentoo Technologies, Inc. ** Author: Daniel Robbins ** Date: 16 Jun 2000 ** ** These routines provide an easy way to make any type of ** data-structure thread-aware. Simply associate a data_control ** structure with the data structure (by creating a new struct, for ** example). Then, simply lock and unlock the mutex, or ** wait/signal/broadcast on the condition variable in the data_control ** structure as needed. ** ** data_control structs contain an int called "active". This int is ** intended to be used for a specific kind of multithreaded design, ** where each thread checks the state of "active" every time it locks ** the mutex. If active is 0, the thread knows that instead of doing ** its normal routine, it should stop itself. If active is 1, it ** should continue as normal. So, by setting active to 0, a ** controlling thread can easily inform a thread work crew to shut ** down instead of processing new jobs. Use the control_activate() ** and control_deactivate() functions, which will also broadcast on ** the data_control struct's condition variable, so that all threads ** stuck in pthread_cond_wait() will wake up, have an opportunity to ** notice the change, and then terminate. */ #include "control.h" int control_init(data_control *mycontrol) { int mystatus; if (pthread_mutex_init(&(mycontrol->mutex),NULL)) return 1; if (pthread_cond_init(&(mycontrol->cond),NULL)) return 1; mycontrol->active=0; return 0; } int control_destroy(data_control *mycontrol) { int mystatus; if (pthread_cond_destroy(&(mycontrol->cond))) return 1; if (pthread_cond_destroy(&(mycontrol->cond))) return 1; mycontrol->active=0; return 0; } int control_activate(data_control *mycontrol) { int mystatus; if (pthread_mutex_lock(&(mycontrol->mutex))) return 0; mycontrol->active=1; pthread_mutex_unlock(&(mycontrol->mutex)); pthread_cond_broadcast(&(mycontrol->cond)); return 1; } int control_deactivate(data_control *mycontrol) { int mystatus; if (pthread_mutex_lock(&(mycontrol->mutex))) return 0; mycontrol->active=0; pthread_mutex_unlock(&(mycontrol->mutex)); pthread_cond_broadcast(&(mycontrol->cond)); return 1; }

调试旉��

在开始调试之前，�q�需要一个文件。以下是 dbug.h�Q?/p>
dbug.h

#define dabort() \ { printf("Aborting at line %d in source file %s\n",__LINE__,__FILE__); abort(); }

此代码用于处理工作组代码中的不可�U�正错误�?/p>
工作�l�代�?/span>

说到工作�l�代码，以下��是�Q?/p>
workcrew.c

#include #include #include "control.h" #include "queue.h" #include "dbug.h" /* the work_queue holds tasks for the various threads to complete. */ struct work_queue { data_control control; queue work; } wq; /* I added a job number to the work node. Normally, the work node would contain additional data that needed to be processed. */ typedef struct work_node { struct node *next; int jobnum; } wnode; /* the cleanup queue holds stopped threads. Before a thread terminates, it adds itself to this list. Since the main thread is waiting for changes in this list, it will then wake up and clean up the newly terminated thread. */ struct cleanup_queue { data_control control; queue cleanup; } cq; /* I added a thread number (for debugging/instructional purposes) and a thread id to the cleanup node. The cleanup node gets passed to the new thread on startup, and just before the thread stops, it attaches the cleanup node to the cleanup queue. The main thread monitors the cleanup queue and is the one that performs the necessary cleanup. */ typedef struct cleanup_node { struct node *next; int threadnum; pthread_t tid; } cnode; void *threadfunc(void *myarg) { wnode *mywork; cnode *mynode; mynode=(cnode *) myarg; pthread_mutex_lock(&wq.control.mutex); while (wq.control.active) { while (wq.work.head==NULL && wq.control.active) { pthread_cond_wait(&wq.control.cond, &wq.control.mutex); } if (!wq.control.active) break; //we got something! mywork=(wnode *) queue_get(&wq.work); pthread_mutex_unlock(&wq.control.mutex); //perform processing... printf("Thread number %d processing job %d\n",mynode->threadnum,mywork->jobnum); free(mywork); pthread_mutex_lock(&wq.control.mutex); } pthread_mutex_unlock(&wq.control.mutex); pthread_mutex_lock(&cq.control.mutex); queue_put(&cq.cleanup,(node *) mynode); pthread_mutex_unlock(&cq.control.mutex); pthread_cond_signal(&cq.control.cond); printf("thread %d shutting down...\n",mynode->threadnum); return NULL; } #define NUM_WORKERS 4 int numthreads; void join_threads(void) { cnode *curnode; printf("joining threads...\n"); while (numthreads) { pthread_mutex_lock(&cq.control.mutex); /* below, we sleep until there really is a new cleanup node. This takes care of any false wakeups... even if we break out of pthread_cond_wait(), we don't make any assumptions that the condition we were waiting for is true. */ while (cq.cleanup.head==NULL) { pthread_cond_wait(&cq.control.cond,&cq.control.mutex); } /* at this point, we hold the mutex and there is an item in the list that we need to process. First, we remove the node from the queue. Then, we call pthread_join() on the tid stored in the node. When pthread_join() returns, we have cleaned up after a thread. Only then do we free() the node, decrement the number of additional threads we need to wait for and repeat the entire process, if necessary */ curnode = (cnode *) queue_get(&cq.cleanup); pthread_mutex_unlock(&cq.control.mutex); pthread_join(curnode->tid,NULL); printf("joined with thread %d\n",curnode->threadnum); free(curnode); numthreads--; } } int create_threads(void) { int x; cnode *curnode; for (x=0; xthreadnum=x; if (pthread_create(&curnode->tid, NULL, threadfunc, (void *) curnode)) return 1; printf("created thread %d\n",x); numthreads++; } return 0; } void initialize_structs(void) { numthreads=0; if (control_init(&wq.control)) dabort(); queue_init(&wq.work); if (control_init(&cq.control)) { control_destroy(&wq.control); dabort(); } queue_init(&wq.work); control_activate(&wq.control); } void cleanup_structs(void) { control_destroy(&cq.control); control_destroy(&wq.control); } int main(void) { int x; wnode *mywork; initialize_structs(); /* CREATION */ if (create_threads()) { printf("Error starting threads... cleaning up.\n"); join_threads(); dabort(); } pthread_mutex_lock(&wq.control.mutex); for (x=0; x<16000; x++) { mywork=malloc(sizeof(wnode)); if (!mywork) { printf("ouch! can't malloc!\n"); break; } mywork->jobnum=x; queue_put(&wq.work,(node *) mywork); } pthread_mutex_unlock(&wq.control.mutex); pthread_cond_broadcast(&wq.control.cond); printf("sleeping...\n"); sleep(2); printf("deactivating work queue...\n"); control_deactivate(&wq.control); /* CLEANUP */ join_threads(); cleanup_structs(); }

代码初排

现在来快速初排代码。定义的�W�一个结构称�?"wq"�Q�它包含�?data_control 和队列头。data_control �l�构用于仲裁�Ҏ(gu��)��个队列的讉K��Q�包括队列中的节炏V��下一步工作是定义实际的工作节炏V��要使代码符合本文中的示例，此处所包含的都是作业号�?/p>
接着�Q�创建清除队列。注释说明了(ji��n)它的工作方式。好�Q�现在让我们跌�� threadfunc()、join_threads()、create_threads() �?initialize_structs() 调用�Q�直接蟩�?main()。所做的�W�一件事��是初始化结�?-- �q�包括初始化 data_controls 和队列，以及(qi��ng)�Ȁ�z�d��作队列�?/p>
有关清除的注意事��?/span>

现在初始化线�E�。如果看一�?create_threads() 调用�Q�似乎一切正�?-- 除了(ji��n)一件事。请注意�Q�我们正在分配清除节点，以及(qi��ng)初始化它的线�E�号�?TID �l��g。我们还��清除节点作为初始自变量传递给每一个新的工作程序线�E�。�ؓ(f��)什么这样做�Q?/p>
因�ؓ(f��)当某个工作程序线�E�退出时�Q�它�?x��)将其清除节点连接到清除队列�Q�然后终止。那�Ӟ��ȝ��E�会(x��)在清除队列中��(g��)��到�q�个节点�Q�利用条件变量）(j��)�Q��ƈ��这个节点移出队列。因�?TID�Q�线�E�标识）(j��)存储在清除节点中�Q�所以主�U�程可以��切知道哪个�U�程已终止了(ji��n)。然后，�ȝ��E�将调用 pthread_join(tid)�Q��ƈ联接适当的工作程序线�E�。如果没有做记录�Q�那么主�U�程��需要按��L��序联接工作�E�序�U�程�Q�可能是按它们的创徏��序。由于线�E�不一定按此顺序终止，那么�ȝ��E�可能会(x��)在已�l�联接了(ji��n)十个�U�程�Ӟ��{�待联接另一个线�E�。�?zh��n)�能理解这�U�设计决�{�是如何使关闭代码加速的吗（��其在��用几百个工作�E�序�U�程的情况下�Q�？

创徏工作

我们已启动了(ji��n)工作�E�序�U�程�Q�它们已�l�完成了(ji��n)执行 threadfunc()�Q�稍后将讨论此函敎ͼ�(j��)�Q�现在主�U�程开始将工作节点插入工作队列。首先，它锁�?wq 的控制互斥对象，然后分配 16000 个工作包�Q�将它们逐个插入队列。完成之后，��调�?pthread_cond_broadcast()�Q�于是所有正在睡眠的�U�程�?x��)被唤醒�Q��ƈ开始执行工作。此�Ӟ��ȝ��E�将睡眠两秒钟，然后释放工作队列�Q��ƈ通知工作�E�序�U�程�l�止�z�d��。接着�Q�主�U�程�?x��)调�?join_threads() 函数来清除所有工作程序线�E��?/p>
threadfunc()

现在来讨�?threadfunc()�Q�这是所有工作程序线�E�都要执行的代码。当工作�E�序�U�程启动�Ӟ��它会(x��)立即锁定工作队列互斥对象�Q�获取一个工作节点（如果有的话）(j��)�Q�然后对它进行处理。如果没有工作，则调�?pthread_cond_wait()。�?zh��n)�会(x��)注意到�q�个调用在一个非常紧凑的 while() 循环中，�q�是非常重要的。当�?pthread_cond_wait() 调用中苏醒时�Q�决不能认�ؓ(f��)条�g肯定发生�?-- �?可能发生�?ji��n)，也可能没有发生。如果发生了(ji��n)�q�种情况�Q�即错误地唤醒了(ji��n)�U�程�Q�而列表是�I�的�Q�那�?while 循环��再�ơ调�?pthread_cond_wait()�?

如果有一个工作节点，那么我们只打印它的作业号�Q�释攑֮��q��出。然而，实际代码�?x��)执行一些更实质性的操作。在 while() 循环�l�尾�Q�我们锁定了(ji��n)互斥对象�Q�以便检�?active 变量�Q�以�?qi��ng)在循环�剙��(g��)查新的工作节炏V��如果执行完此代码，��׃��(x��)发现如果 wq.control.active �?0�Q�while 循环��׃��(x��)�l�止�Q��ƈ�?x��)执�?threadfunc() �l�尾处的清除代码�?/p>
工作�E�序�U�程的清除代码部仉��常有��。首先，�׃�� pthread_cond_wait() �q�回�?ji��n)锁定的互斥对象�Q�它�?x��)�?work_queue 解锁。然后，它锁定清除队列，��d��清除代码�Q�包含了(ji��n) TID�Q�主�U�程��用此 TID 来调�?pthread_join()�Q�，然后再对清除队列解锁。此后，它发信号�l�所�?cq �{�待�?(pthread_cond_signal(&cq.control.cond))�Q�于是主�U�程��q��道有一个待处理的新节点。我们不使用 pthread_cond_broadcast()�Q�因为没有这个必�?-- 只有一个线�E�（�ȝ��E�）(j��)在等待清除队列中的新节点。当它调�?join_threads() �Ӟ��工作�E�序�U�程��打印关闭消息，然后�l�止�Q�等待主�U�程发出�?pthread_join() 调用�?/p>

join_threads()

如果要查看关于如何��用条件变量的��单示例，请参�?join_threads() 函数。如果还有工作程序线�E�，join_threads() �?x��)一直执行，�{�待清除队列中新的清除节炏V��如果有新节点，我们�?x��)将此节点移出队列、对清除队列解锁�Q�从而��工作�E�序可以��d��清除节点�Q�、联接新的工作程序线�E�（使用存储在清除节点中�?TID�Q�、释放清除节炏V��减��?#8220;现有”�U�程的数量，然后�l�箋�?/p>

�l�束�?/span>

现在已经��C��(ji��n)“POSIX �U�程详解”�p�d��的尾壎ͼ�希望�(zh��n)�已�l�准备好开始将多线�E�代码添加到�(zh��n)�自��q��应用�E�序中。有兌��l�信息，请参�?参考资�?/font>部分�Q�这部分内容�q�包含了(ji��n)本文中��用的所有源码的 tar 文�g。下一个系列中再见�Q?

参考资�?

�(zh��n)�可以参阅本文在 developerWorks 全球站点上的英文原文.

本文中��用的源码�?tar 文�g�?

友好�?Linux pthread 在线帮助 ("man -k pthread") 是极好的参考资料�?br>

如果要彻底了(ji��n)�?POSIX �U�程�Q�我推荐此书�Q?Programming with POSIX Threads �Q�David R. Butenhof (Addison-Wesley, 1997)。据证实�Q�此书是现有最好的讨论 POSIX �U�程的书�c��?

W. Richard Stevens 撰写�?UNIX Network Programming - Networking APIs: Sockets and XTI �Q?Prentice Hall, 1997) 一书还�늛��?POSIX �U�程。这是一本经典著作，但它讨论�U�程不如上述�?Programming with POSIX Threads那样详细�?

请参�?Daniel �?developerWorks上发表的 POSIX �U�程�p�d��中的前几��文章：(x��)

POSIX �U�程详解介绍�?POSIX �U�程�Q��ƈ演示�?ji��n)如何在代码中��用线�E��?
POSIX �U�程详解�Q�第 2 部分演示�?ji��n)如何��用被�U�Cؓ(f��)互斥对象的灵巧小玩意�Q�来保护�U�程代码中共享数据结构的完整性�?

请参�?Sean Walton 撰写的有�?Linux �U�程的文档，KB7rfa

请学�?f��n)亚里桑那大学�?Mark Hays �~�写�?POSIX �U�程教程�?

请在 Pthreads-Tcl 介绍中查看对 Tcl 的更改，此更改�� Tcl 能够�?POSIX �U�程一起��用�?

误��?LINUX POSIX �?DCE �U�程主页�?

请参�?LinuxThreads 资料�?/font>�?

Proolix是一�U�简单的遵从 POSIX 标准的基�?i8086+ 的操作系�l��?

关于作�?/span>

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q�Gentoo ��目的总设计师�Q�MacMillan 出版书籍的撰�E�作者，他的著作有：(x��) Caldera OpenLinux Unleashed, SuSE Linux Unleashed, �?Samba Unleashed。Daniel 自二�q��起就与计��机某些领域�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和新出生的女�?Hadassah 一起共度时光。可通过 drobbins@gentoo.org�?Daniel 联系�?

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q�Gentoo ��目的总设计师�Q�MacMillan 出版书籍的撰�E�作者，他的著作有：(x��) Caldera OpenLinux Unleashed, SuSE Linux Unleashed, �?Samba Unleashed。Daniel 自二�q��起就与计��机某些领域�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和新出生的女�?Hadassah 一起共度时光。可通过 drobbins@gentoo.org�?Daniel 联系�?

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q�Gentoo ��目的总设计师�Q�MacMillan 出版书籍的撰�E�作者，他的著作有：(x��) Caldera OpenLinux Unleashed, SuSE Linux Unleashed, �?Samba Unleashed。Daniel 自二�q��起就与计��机某些领域�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和新出生的女�?Hadassah 一起共度时光。可通过 drobbins@gentoo.org�?Daniel 联系�?

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q�Gentoo ��目的总设计师�Q�MacMillan 出版书籍的撰�E�作者，他的著作有：(x��) Caldera OpenLinux Unleashed, SuSE Linux Unleashed, �?Samba Unleashed。Daniel 自二�q��起就与计��机某些领域�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和新出生的女�?Hadassah 一起共度时光。可通过 drobbins@gentoo.org�?Daniel 联系�?

沙漠里的�� 2010-03-11 11:54 发表评论

[转蝲]POSIX �U�程详解-�W?部分

沙漠里的�� — Thu, 11 Mar 2010 03:46:00 GMT
原文地址�Q?a >http://www.ibm.com/developerworks/cn/linux/thread/posix_thread2/

POSIX �U�程是提高�(sh��)��码响应和性能的有力手�D�c(di��n)��在此三部分�p�d��文章的第二篇中，Daniel Robbins ��说明，如何使用被称��Z��斥对象的灵��y��玩意，来保护线�E�代码中�׃�n数据�l�构的完整性�?/blockquote>
互斥我吧�Q?/span>

�?前一��文章中 �Q�谈��C��(ji��n)�?x��)导致异常结果的�U�程代码。两个线�E�分别对同一个全局变量�q�行�?ji��n)二十次加一。变量的值最后应该是 40�Q�但最�l�值却�?21。这是怎么回事呢？因�ؓ(f��)一个线�E�不停地“取消”�?ji��n)另一个线�E�执行的加一操作�Q�所以��生这个问题。现在让我们来查看改正后的代码，它��?互斥对象(mutex)来解册��问题�Q?

thread3.c

#include #include #include #include int myglobal; pthread_mutex_t mymutex=PTHREAD_MUTEX_INITIALIZER; void *thread_function(void *arg) { int i,j; for ( i=0; i<20; i++) { pthread_mutex_lock(&mymutex); j=myglobal; j=j+1; printf("."); fflush(stdout); sleep(1); myglobal=j; pthread_mutex_unlock(&mymutex); } return NULL; } int main(void) { pthread_t mythread; int i; if ( pthread_create( &mythread, NULL, thread_function, NULL) ) { printf("error creating thread."); abort(); } for ( i=0; i<20; i++) { pthread_mutex_lock(&mymutex); myglobal=myglobal+1; pthread_mutex_unlock(&mymutex); printf("o"); fflush(stdout); sleep(1); } if ( pthread_join ( mythread, NULL ) ) { printf("error joining thread."); abort(); } printf("\nmyglobal equals %d\n",myglobal); exit(0); }

解读一�?/font>

如果��这�D�代码与前一��文�?/font> 中给出的版本作一个比较，��׃��(x��)注意到增加了(ji��n) pthread_mutex_lock() �?pthread_mutex_unlock() 函数调用。在�U�程�E�序中这些调用执行了(ji��n)不可或缺的功能。他们提供了(ji��n)一�U?�怺�排斥的方法（互斥对象即由此得名）(j��)。两个线�E�不能同时对同一个互斥对象加锁�?

互斥对象是这样工作的。如果线�E?a 试图锁定一个互斥对象，而此时线�E?b 已锁定了(ji��n)同一个互斥对象时�Q�线�E?a ��将�q�入睡眠状态。一旦线�E?b 释放�?ji��n)互斥对象（通过 pthread_mutex_unlock() 调用�Q�，�U�程 a ��p��够锁定这个互斥对象（换句话说�Q�线�E?a ��将�?pthread_mutex_lock() 函数调用中返回，同时互斥对象被锁定）(j��)。同样地�Q�当�U�程 a 正锁定互斥对象时�Q�如果线�E?c 试图锁定互斥对象的话�Q�线�E?c 也将临时�q�入睡眠状态。对已锁定的互斥对象上调�?pthread_mutex_lock() 的所有线�E�都��进入睡眠状态，�q�些睡眠的线�E�将“排队”讉K��q�个互斥对象�?/p>
通常使用 pthread_mutex_lock() �?pthread_mutex_unlock() 来保护数据结构。这��是��_(d��)��通过�U�程的锁定和解锁�Q�对于某一数据�l�构�Q�确保某一时刻只能有一个线�E�能够访问它。可以推��到�Q�当�U�程试图锁定一个未加锁的互斥对象时�Q�POSIX �U�程库将同意锁定�Q�而不�?x��)�ɾU�程�q�入睡眠状态�?/p>
��L(f��ng)��q�幅��L��的�O画，四个��精灵重��C��(ji��n)最�q�一��?pthread_mutex_lock() 调用的一个场面�?/strong>

图中�Q�锁定了(ji��n)互斥对象的线�E�能够存取复杂的数据�l�构�Q�而不必担�?j��)同时�?x��)有其它线�E�干扰。那个数据结构实际上�?#8220;�ȝ��”�?ji��n)，直到互斥对象被解锁��?f��)止。pthread_mutex_lock() �?pthread_mutex_unlock() 函数调用�Q�如�?#8220;在施工中”标志一��P��正在修改和��d��的某一特定�׃�n数据包围��h��。这两个函数调用的作用就是警告其它线�E�，要它们��l�睡眠�ƈ�{�待轮到它们对互斥对象加锁。当�?d��ng)��除非�?每个对特定数据结构进行读写操作的语句前后�Q�都分别放上 pthread_mutex_lock() �?pthread_mutext_unlock() 调用�Q�才�?x��)出现这�U�情��c(di��n)�?br>

��Z��么要用互斥对象？

听上��d��有趣�Q�但�I�竟��Z��么要让线�E�睡眠呢�Q�要知道�Q�线�E�的主要优点不就是其��h��独立工作、更多的时候是同时工作的能力吗�Q�是的，��实是这栗��然而，每个重要的线�E�程序都需要��用某些互斥对象。让我们再看一下示例程序以便理解原因所在�?/p>
��L(f��ng)�� thread_function()�Q��@环中一开始就锁定�?ji��n)互斥对象，最后才��它解锁。在�q�个�C�Z��E�序中，mymutex 用来保护 myglobal 的倹{��仔�l�查�?thread_function()�Q�加一代码�?myglobal 复制��C��个局部变量，对局部变量加一�Q�睡眠一�U�钟�Q�在�q�之后才把局部变量的��g��回给 myglobal。不使用互斥对象�Ӟ��即��ȝ��E�在 thread_function() �U�程睡眠一�U�钟期间内对 myglobal 加一�Q�thread_function() 苏醒后也�?x��)覆盖主�U�程所加的倹{��用互斥对象能够保证这�U�情形不�?x��)发生。（�(zh��n)�也�怼�(x��)惛_��Q�我增加�?ji��n)一�U�钟延迟以触发不正确的结果。把局部变量的��D��l?myglobal 之前�Q�实际上没有什么真正理��p��?thread_function() 睡眠一�U�钟。）(j��)使用互斥对象的新�E�序产生�?ji��n)期望的�l�果�Q?/p>

$ ./thread3 o..o..o.o..o..o.o.o.o.o..o..o..o.ooooooo myglobal equals 40

��Z��(ji��n)�q�一步探索这个极为重要的概念�Q�让我们看一看程序中�q�行加一操作的代码：(x��)

thread_function() 加一代码�Q? j=myglobal; j=j+1; printf("."); fflush(stdout); sleep(1); myglobal=j; �ȝ��E�加一代码�Q? myglobal=myglobal+1;

如果代码是位于单�U�程�E�序中，可以预期 thread_function() 代码��完整执行。接下来才会(x��)执行�ȝ��E�代码（或者是以相反的��序执行�Q�。在不��用互斥对象的�U�程�E�序中，代码可能�Q�几乎是�Q�由于调用了(ji��n) sleep() 的缘故）(j��)以如下的��序执行�Q?/p>

thread_function() �U�程 �ȝ��E? j=myglobal; j=j+1; printf("."); fflush(stdout); sleep(1); myglobal=myglobal+1; myglobal=j;

当代码以此特定顺序执行时�Q�将覆盖�ȝ��E�对 myglobal 的修攏V��程序结束后�Q�就��得��C��正确的倹{��如果是在操�U�|��针的话，��可能��生段错误。注意到 thread_function() �U�程按顺序执行了(ji��n)它的所有指令。看来不象是 thread_function() 有什么次序颠倒。问题是�Q�同一旉��内，另一个线�E�对同一数据�l�构�q�行�?ji��n)另一个修攏V�?/p>

�U�程内幕 1

在解释如何确定在何处使用互斥对象之前�Q�先来深入了(ji��n)解一下线�E�的内部工作机制。请看第一个例子：(x��)

假设�ȝ��E�将创徏三个新线�E�：(x��)�U�程 a、线�E?b 和线�E?c。假定首先创建线�E?a�Q�然后是�U�程 b�Q�最后创建线�E?c�?/p>

pthread_create( &thread_a, NULL, thread_function, NULL); pthread_create( &thread_b, NULL, thread_function, NULL); pthread_create( &thread_c, NULL, thread_function, NULL);

在第一�?pthread_create() 调用完成后，可以假定�U�程 a 不是已存在就是已�l�束�q�停止。第二个 pthread_create() 调用后，�ȝ��E�和�U�程 b 都可以假定线�E?a 存在�Q�或已停止）(j��)�?/p>
然而，��在�W�二�?create() 调用�q�回后，�ȝ��E�无法假定是哪一个线�E�（a �?b�Q�会(x��)首先开始运行。虽然两个线�E�都已存在，�U�程 CPU 旉��片的分配取决于内核和�U�程库。至于谁��首先运行，�q�没有严格的规则。尽��线�E?a 更有可能在线�E?b 之前开始执行，但这�q�无保证。对于多处理器系�l�，情况更是如此。如果编写的代码假定在线�E?b 开始执行之前实际上执行�U�程 a 的代码，那么�Q�程序最�l�正��运行的概率�?99%。或者更�p�糕�Q�程序在�(zh��n)�的机器�?100% 地正��运行，而在�(zh��n)�客��L(f��ng)��四处理器服务器上正确�q�行的概率却是零�?/p>
从这个例子还可以得知�Q�线�E�库保留�?ji��n)每个单独线�E�的代码执行��序。换句话��_(d��)��实际上那三个 pthread_create() 调用��按它们出现的顺序执行。从�ȝ��E�上来看�Q�所有代码都是依�ơ执行的。有�Ӟ��可以利用�q�一�Ҏ(gu��)��优化部分�U�程�E�序。例如，在上例中�Q�线�E?c ��可以假定线�E?a 和线�E?b 不是正在�q�行��是已经�l�止。它不必担心(j��)存在�q�没有创建线�E?a 和线�E?b 的可能性。可以��用这一逻辑来优化线�E�程序�?/p>

�U�程内幕 2

现在来看另一个假想的例子。假设有许多�U�程�Q�他们都正在执行下列代码�Q?/p>

myglobal=myglobal+1;

那么�Q�是否需要在加一操作语句前后分别锁定和解锁互斥对象呢�Q�也许有��Z��(x��)�?#8220;�?#8221;。编译器极有可能把上�q�赋��D��句编译成一条机器指令。大安��知道�Q�不可能"半�?中断一条机器指令。即使是��g中断也不�?x��)破坏机器指令的完整性。基于以上考虑�Q�很可能們֐�于完全省�?pthread_mutex_lock() �?pthread_mutex_unlock() 调用。不要这样做�?/p>
我在说废话吗�Q�不完全是这栗��首先，不应该假定上�q�赋��D��句一定会(x��)被编译成一条机器指令，除非亲自验证�?ji��n)机器代码。即使插入某些内嵌汇�~�语句以��保加一操作的完整执行――甚臻I��即��是自己动手写�~�译器！-- 仍然可能有问题�?/p>
�{�案在这里。��用单条内嵌汇�~�操作码在单处理器系�l�上可能不会(x��)有什么问题。每个加一操作都将完整地进行，�q�且多半�?x��)得到期望的�l�果。但是多处理器系�l�则截然不同。在�?CPU 机器上，两个单独的处理器可能�?x��)在几乎同一时刻�Q�或者，��在同一时刻�Q�执行上�q�赋��D��句。不要忘?sh��)��(ji��n)，�q�时对内存的修改需要先�?L1 写入 L2 高速缓存、然后才写入��d��。（SMP 机器�q�不只是增加�?ji��n)处理器而已�Q�它�q�有用来仲裁�?RAM 存取的特�D�硬件。）(j��)最�l�，�Ҏ(gu��)��无法搞清在写入主存的竞争中，哪个 CPU ��会(x��)"胜出"。要产生可预��的代码�Q�应使用互斥对象。互斥对象将插入一�?内存兛_��"�Q�由它来��保对主存的写入按照�U�程锁定互斥对象的顺序进行�?/p>
考虑一�U�以 32 位块为单位更��C��存的 SMP 体系�l�构。如果未使用互斥对象��对一�?64 位整数进行加一操作�Q�整数的最�?4 位字节可能来自一�?CPU�Q�而其�?4 个字节却来自另一 CPU。糟�p�吧�Q�最�p�糕的是�Q��用差劲的技术，�(zh��n)�的�E�序在重要客��L(f��ng)��pȝ��上有可能不是很长旉��才崩溃一�ơ，��是早上三点钟就崩溃。David R. Butenhof 在他的《POSIX �U�程�~�程》（请参阅本文末�� 参考资�?/font>部分�Q�一书中�Q�讨��Z��(ji��n)�׃��未��用互斥对象而将产生的种�U�情��c(di��n)�?

许多互斥对象

如果攄��?ji��n)过多的互斥对象�Q�代码就没有什么�ƈ发性可�a��Q�运行�v来也比单�U�程解决�Ҏ(gu��)��慢。如果放�|�了(ji��n)�q�少的互斥对象，代码��出现奇怪和令�h��尬的错误。幸�q�的是，有一个中间立场。首先，互斥对象是用于串行化存取*�׃�n数据*。不要对非共享数据��用互斥对象，�q�且�Q�如果程序逻辑��保��M��时候都只有一个线�E�能存取特定数据�l�构�Q�那么也不要使用互斥对象�?/p>
其次�Q�如果要使用�׃�n数据�Q�那么在诅R��写�׃�n数据旉��应��用互斥对象。用 pthread_mutex_lock() �?pthread_mutex_unlock() 把读写部分保护�v来，或者在�E�序中不固定的地斚w��Z��用它们。学�?x��)从一个线�E�的角度来审视代码，�q�确保程序中每一个线�E�对内存的观炚w��是一致和合适的。�ؓ(f��)�?ji��n)熟�?zh��n)�互斥对象的用法�Q�最初可能要花好几个��时来编写代码，但是很快��׃��(x��)�?f��n)惯�q�且*�?不必多想��p��够正��用它们�?/p>

使用调用�Q�初始化

现在该来看看使用互斥对象的各�U�不同方法了(ji��n)。让我们从初始化开始。在 thread3.c �C�Z�� 中，我们使用�?ji��n)�?r��n)态初始化�Ҏ(gu��)��。这需要声明一�?pthread_mutex_t 变量�Q��ƈ赋给它常�?PTHREAD_MUTEX_INITIALIZER�Q?

pthread_mutex_t mymutex=PTHREAD_MUTEX_INITIALIZER;

很简单吧。但是还可以动态地创徏互斥对象。当代码使用 malloc() 分配一个新的互斥对象时�Q��用这�U�动态方法。此�Ӟ��?r��n)态初始化�Ҏ(gu��)��是行不通的�Q��ƈ且应当��用例�E?pthread_mutex_init()�Q?/p>

int pthread_mutex_init( pthread_mutex_t *mymutex, const pthread_mutexattr_t *attr)

正如所�C�，pthread_mutex_init 接受一个指针作为参��C��初始化�ؓ(f��)互斥对象�Q�该指针指向一块已分配好的内存区。第二个参数�Q�可以接受一个可选的 pthread_mutexattr_t 指针。这个结构可用来讄��各种互斥对象属性。但是通常�q�不需要这些属性，所以正常做法是指定 NULL�?/p>
一旦��?pthread_mutex_init() 初始化了(ji��n)互斥对象�Q�就应��?pthread_mutex_destroy() 消除它。pthread_mutex_destroy() 接受一个指�?pthread_mutext_t 的指针作为参敎ͼ��q��攑ֈ��Z��斥对象时分配�l�它的�Q何资源。请注意�Q?pthread_mutex_destroy() 不会(x��) 释放用来存储 pthread_mutex_t 的内存。释放自��q��内存完全取决于�?zh��n)�。还必须注意一点，pthread_mutex_init() �?pthread_mutex_destroy() 成功旉��q�回零�?

使用调用�Q�锁�?/font>

pthread_mutex_lock(pthread_mutex_t *mutex)

pthread_mutex_lock() 接受一个指向互斥对象的指针作�ؓ(f��)参数以将光��定。如果碰巧已�l�锁定了(ji��n)互斥对象�Q�调用者将�q�入睡眠状态。函数返回时�Q�将唤醒调用者（昄��Q��ƈ且调用者还��保留该锁。函数调用成功时�q�回�Ӟ��p�|时返回非零的错误代码�?/p>

pthread_mutex_unlock(pthread_mutex_t *mutex)

pthread_mutex_unlock() �?pthread_mutex_lock() 盔R��合，它把�U�程已经加锁的互斥对象解锁。始�l�应该尽快对已加锁的互斥对象�q�行解锁�Q�以提高性能�Q�。�ƈ且绝对不要对�(zh��n)�未保持锁的互斥对象�q�行解锁操作�Q�否则，pthread_mutex_unlock() 调用��失败�ƈ带一个非零的 EPERM �q�回��|��(j��)�?/p>

pthread_mutex_trylock(pthread_mutex_t *mutex)

当线�E�正在做其它事情的时候（�׃��互斥对象当前是锁定的�Q�，如果希望锁定互斥对象�Q�这个调用就相当方便。调�?pthread_mutex_trylock() 时将��试锁定互斥对象。如果互斥对象当前处于解锁状态，那么�(zh��n)�将获得该锁�q�且函数��返回零。然而，如果互斥对象已锁定，�q�个调用也不�?x��)阻塞。当�?d��ng)��它�?x��)�q�回非零�?EBUSY 错误倹{��然后可以��l�做其它事情�Q�稍后再��试锁定�?/p>

�{�待条�g发生

互斥对象是线�E�程序必需的工��P��但它们�ƈ非万能的。例如，如果�U�程正在�{�待�׃�n数据内某个条件出玎ͼ�那会(x��)发生什么呢�Q�代码可以反复对互斥对象锁定和解锁，以检查值的��M��变化。同�Ӟ��q�要快速将互斥对象解锁�Q�以便其它线�E�能够进行�Q何必需的更攏V��这是一�U�非常可怕的�Ҏ(gu��)��Q�因为线�E�需要在合理的时间范围内频繁地��@环检��变化�?/p>
在每�ơ检查之��_(d��)��可以让调用线�E�短暂地�q�入睡眠�Q�比如睡眠三�U�钟�Q�但是因此线�E�代码就无法最快作出响应。真正需要的是这样一�U�方法，当线�E�在�{�待满��某些条�g时�ɾU�程�q�入睡眠状态。一旦条件满��I��q�需要一�U�方法以唤醒因等待满��特定条件而睡眠的�U�程。如果能够做到这一点，�U�程代码��是非常高效的，�q�且不会(x��)占用宝贵的互斥对象锁。这正是 POSIX 条�g变量能做的事�Q?/p>
�?POSIX 条�g变量��是我下一��文章的主题�Q�其中将说明如何正确使用条�g变量。到那时�Q��?zh��n)��拥有�?ji��n)创徏复杂�U�程�E�序所需的全部资源，那些�U�程�E�序可以模拟工作人员、装配线�{�等。既然�?zh��n)�已经��来��熟�?zh��n)�线�E�，我将在下一��文章中加快�q�度。这��P��在下一��文章的�l�尾��p��放上一个相对复杂的�U�程�E�序。说到等到条件��生，下次再见�Q?/p>

参考资�?

�(zh��n)�可以参阅本文在 developerWorks 全球站点上的英文原文.

请参�?Linux �U�程中的文档�Q�Sean Walton, KB7rfa

POSIX �U�程教程 �Q�Mark Hays�Q�亚里桑那大�?

�?Pthreads-Tcl 介绍中，查看�?Tcl 的更改以使其能够使用 POSIX �U�程

使用友好�?Linux pthread 在线帮助 ("man -k pthread")

参�?LINUX POSIX �?DCE �U�程主页

查看 LinuxThreads 资料�?/font>

Proolix �Q�一�U�简单遵�?POSIX 标准的操作系�l�，用于 i8086+�Q�一直在开发中

阅读 David R. Butenhof 的著�?POSIX �U�程�~�程指南�Q�书中讨��Z��(ji��n)许多问题�Q�其中谈��C��使用互斥对象是可能出现的�U�种情况

查阅 W. Richard Stevens 的著�?UNIX �|�络�~�程�Q�网�l?API�Q�Sockets �?XTI�Q�第 1 �?/font>

关于作�?/font>

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q?Gentoo ��目的总设计师�Q�多�?MacMillan 出版书籍的作者，包括�Q?Caldera OpenLinux Unleashed�?SuSE Linux Unleashed�?Samba Unleashed 。Daniel 自小学二�q��起就与计��机�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和刚出生的女�?Hadassah 一起共渡时光。可通过 drobbins@gentoo.org �?Daniel 取得联系�?

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q?Gentoo ��目的总设计师�Q�多�?MacMillan 出版书籍的作者，包括�Q?Caldera OpenLinux Unleashed�?SuSE Linux Unleashed�?Samba Unleashed 。Daniel 自小学二�q��起就与计��机�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和刚出生的女�?Hadassah 一起共渡时光。可通过 drobbins@gentoo.org �?Daniel 取得联系�?

沙漠里的�� 2010-03-11 11:46 发表评论

[转蝲]POSIX �U�程详解-�W?部分

沙漠里的�� — Thu, 11 Mar 2010 03:39:00 GMT

[原文地址]http://www.ibm.com/developerworks/cn/linux/thread/posix_thread1/

POSIX�Q�可�U�L��操作�pȝ��接口�Q�线�E�是提高?sh��)��码响应和性能的有力手�D�c(di��n)��在本系列中�Q�Daniel Robbins 向�?zh��n)��_��地展�C�在�~�程中如何��用线�E�。其中还涉及(qi��ng)大量�q�后�l�节�Q�读完本�p�d��文章�Q��?zh��n)�完全可以�q�用 POSIX �U�程创徏多线�E�程序�?/p>

�U�程是有��的

�?ji��n)解如何正确�q�用�U�程是每一个优�U��E�序员必备的素质。线�E�类��g��q�程。如同进�E�，�U�程由内核按旉��分片�q�行��理。在单处理器�pȝ��中，内核使用旉��分片来模拟线�E�的�q�发执行�Q�这�U�方式和�q�程的相同。而在多处理器�pȝ��中，如同多个�q�程�Q�线�E�实际上一样可以�ƈ发执行�?/p>
那么��Z��么对于大多数合作性�Q务，多线�E�比多个独立的进�E�更优越呢？�q�是因�ؓ(f��)�Q�线�E�共享相同的内存�I�间。不同的�U�程可以存取内存?sh��)��的同一个变量。所以，�E�序中的所有线�E�都可以��L��写声明过的全局变量。如果曾�?fork() �~�写�q�重要代码，��׃��(x��)认识到这个工��L(f��ng)��重要性。�ؓ(f��)什么呢�Q�虽�?fork() 允许创徏多个�q�程�Q�但它还?sh��)��(x��)带来以下通信问题: 如何让多个进�E�相互通信�Q�这里每个进�E�都有各自独立的内存�I�间。对�q�个问题没有一个简单的�{�案。虽然有许多不同�U�类的本�?IPC (�q�程间通信�Q�，但它们都遇到两个重要障碍�Q?/p>

强加�?ji��n)某�U��Ş式的额外内核开销�Q�从而降低性能�?
对于大多数情形，IPC 不是对于代码�?#8220;自然”扩展。通常极大地增加了(ji��n)�E�序的复杂性�?

双重坏事: 开销和复杂性都非好事。如果曾�l��ؓ(f��)�?ji��n)支�?IPC 而对�E�序大动�q�戈�q�，那么�(zh��n)�就�?x��)真正欣赏线�E�提供的��单共享内存机制。由于所有的�U�程都驻留在同一内存�I�间�Q�POSIX �U�程无需�q�行开销大而复杂的长距��调用。只要利用简单的同步机制�Q�程序中所有的�U�程都可以读取和修改已有的数据结构。而无需��数据经由文件描�q�符转储或挤入紧�H�的�׃�n内存�I�间。仅此一个原因，��p��以让�(zh��n)�考虑应该采用单进�E?多线�E�模式而非多进�E?单线�E�模式�?/p>

�U�程是快��L(f��ng)��

不仅如此。线�E�同栯��是非常快��L(f��ng)��。与标准 fork() 相比�Q�线�E�带来的开销很小。内核无需单独复制�q�程的内存空间或文�g描述�W�等�{�。这��p��省了(ji��n)大量�?CPU 旉��Q��得线�E�创建比新进�E�创建快上十��C��癑ր�。因��一点，可以大量使用�U�程而无需太过于担�?j��)带来�?CPU 或内存�(sh��)��뀂��?fork() 时导致的大量 CPU 占用也不复存在。这表示只要在程序中有意义，通常��可以创建线�E��?/p>
当然�Q�和�q�程一��P��U�程��利用多 CPU。如果��Y件是针对多处理器�pȝ��设计的，�q�就真的是一大特性（如果软�g是开放源码，则最�l�可能在不少�q�_��上运行）(j��)。特定类型线�E�程序（��其�?CPU 密集型程序）(j��)的性能��随�pȝ��中处理器的数目几乎线性地提高。如果正在编�?CPU 非常密集型的�E�序�Q�则�l�对惌��法在代码中��用多�U�程。一旦掌握了(ji��n)�U�程�~�码�Q�无需使用�J�琐�?IPC 和其它复杂的通信机制�Q�就能够以全新和创造性的�Ҏ(gu��)��解决�~�码��N��。所有这些特性配合在一起��得多�U�程�~�程更有��、快速和灉|��?/p>

�U�程是可�U�L��?/span>

如果熟�?zh��n)?Linux �~�程�Q�就有可能知�?__clone() �pȝ��调用。__clone() �c�M��?fork()�Q�同时也有许多线�E�的�Ҏ(gu��)��。例如，使用 __clone()�Q�新的子�q�程可以有选择地共享父�q�程的执行环境（内存�I�间�Q�文件描�q�符�{�）(j��)。这是好的一面。但 __clone() 也有不��之处。正如__clone() 在线帮助指出�Q?/p>
“__clone 调用是特定于 Linux �q�_��的，不适用于实现可�U�L��的程序。欲�~�写�U�程化应用程序（多线�E�控制同一内存�I�间�Q�，最好��用实�?POSIX 1003.1c �U�程 API 的库�Q�例�?Linux-Threads 库。参�?pthread_create(3thr)�?#8221;

虽然 __clone() 有线�E�的许多�Ҏ(gu��)��，但它是不可移植的。当然这�q�不意味着代码中不能��用它。但在��Y件中考虑使用 __clone() 时应当权衡这一事实。值得�?ji��n)幸的是�Q�正�?__clone() 在线帮助指出�Q�有一�U�更好的替代�Ҏ(gu��)��Q�POSIX �U�程。如果想�~�写 可移植的 多线�E�代码，代码可运行于 Solaris、FreeBSD、Linux 和其它��^収ͼ�POSIX �U�程是一�U�当然之选�?/p>

�W�一个线�E?/span>

下面是一�?POSIX �U�程的简单示例程序：(x��)

thread1.c

#include #include #include void *thread_function(void *arg) { int i; for ( i=0; i<20; i++) { printf("Thread says hi!\n"); sleep(1); } return NULL; } int main(void) { pthread_t mythread; if ( pthread_create( &mythread, NULL, thread_function, NULL) ) { printf("error creating thread."); abort(); } if ( pthread_join ( mythread, NULL ) ) { printf("error joining thread."); abort(); } exit(0); }

要编译这个程序，只需先将�E�序存�(sh��)ؓ(f��) thread1.c�Q�然后输入：(x��)

$ gcc thread1.c -o thread1 -lpthread

�q�行则输入：(x��)

$ ./thread1

理解 thread1.c

thread1.c 是一个非常简单的�U�程�E�序。虽然它没有实现什么有用的功能�Q�但可以帮助理解�U�程的运行机制。下面，我们一步一步地�?ji��n)解�q�个�E�序是干什么的。main() 中声明了(ji��n)变量 mythread�Q�类型是 pthread_t。pthread_t �c�d��?pthread.h 中定义，通常�U�Cؓ(f��)“�U�程 id”�Q�羃写�ؓ(f��) "tid"�Q�。可以认为它是一�U�线�E�句柄�?/p>
mythread 声明后（��C�� mythread 只是一�?"tid"�Q�或是将要创建的�U�程的句柄）(j��)�Q�调�?pthread_create 函数创徏一个真实活动的�U�程。不要因�?pthread_create() �?"if" 语句内而受其迷惑。由�?pthread_create() 执行成功时返回零而失败时则返回非零��|��?pthread_create() 函数调用攑֜� if() 语句中只是�ؓ(f��)�?ji��n)方便地��(g��)��失败的调用。让我们查看一�?pthread_create 参数。第一个参�?&mythread 是指�?mythread 的指针。第二个参数当前�?NULL�Q�可用来定义�U�程的某些属性。由于缺省的�U�程属性是适用的，只需��该参数设�ؓ(f��) NULL�?/p>
�W�三个参数是新线�E�启动时调用的函数名。本例中�Q�函数名�?thread_function()。当 thread_function() �q�回�Ӟ��新线�E�将�l�止。本例中�Q�线�E�函数没有实现大的功能。它仅将 "Thread says hi!" 输出 20 �ơ然后退出。注�?thread_function() 接受 void * 作�ؓ(f��)参数�Q�同时返回值的�c�d��也是 void *。这表明可以�?void * 向新�U�程传递�Q意类型的数据�Q�新�U�程完成时也可返回�Q意类型的数据。那如何向线�E�传递一个�Q意参敎ͼ�很简单。只要利�?pthread_create() 中的�W�四个参数。本例中�Q�因为没有必要将��M��数据传给微不��道�?thread_function()�Q�所以将�W�四个参数设�?NULL�?/p>
�(zh��n)�也许已推测刎ͼ��?pthread_create() 成功�q�回之后�Q�程序将包含两个�U�程。等一�{�，两个 �U�程�Q�我们不是只创徏�?ji��n)一个线�E�吗�Q�不错，我们只创��Z��(ji��n)一个进�E�。但是主�E�序同样也是一个线�E�。可以这��L(f��ng)��解：(x��)如果�~�写的程序根本没有��?POSIX �U�程�Q�则该程序是单线�E�的�Q�这个单�U�程�U�Cؓ(f��)“�?#8221;�U�程�Q�。创��Z��个新�U�程之后�E�序��d��有两个�U�程�?ji��n)�?

我想此时�(zh��n)�至��有两个重要问题。第一个问题，新线�E�创��Z��后主�U�程如何�q�行。答案，�ȝ��E�按��序�l�箋执行下一行程序（本例中执�?"if (pthread_join(...))"�Q�。第二个问题�Q�新�U�程�l�束时如何处理。答案，新线�E�先停止�Q�然后作为其清理�q�程的一部分�Q�等待与另一个线�E�合�q�或“�q�接”�?/p>
现在�Q�来看一�?pthread_join()。正�?pthread_create() ��一个线�E�拆分�ؓ(f��)两个�Q?pthread_join() ��两个线�E�合�q��ؓ(f��)一个线�E�。pthread_join() 的第一个参数是 tid mythread。第二个参数是指�?void 指针的指针。如�?void 指针不�ؓ(f��) NULL�Q�pthread_join ��线�E�的 void * �q�回值放�|�在指定的位�|�上。由于我们不必理�?thread_function() 的返回��|��所以将其设�?NULL.

�(zh��n)�会(x��)注意�?thread_function() �׃��(ji��n) 20 �U�才完成。在 thread_function() �l�束很久之前�Q�主�U�程��已�l�调用了(ji��n) pthread_join()。如果发生这�U�情况，�ȝ��E�将中断�Q��{向睡眠）(j��)然后�{�待 thread_function() 完成。当 thread_function() 完成�? pthread_join() ��返回。这时程序又只有一个主�U�程。当�E�序退出时�Q�所有新�U�程已经使用 pthread_join() 合�ƈ�?ji��n)。这��是应该如何处理在程序中创徏的每个新�U�程的过�E�。如果没有合�q�一个新�U�程�Q�则它仍然对�pȝ��的最大线�E�数限制不利。这意味着如果未对�U�程做正��的清理�Q�最�l�会(x��)��D�� pthread_create() 调用��p�|�?/p>

无父�Q�无�?/span>

如果使用�q?fork() �pȝ��调用�Q�可能熟�(zh��n)�父�q�程和子�q�程的概��c(di��n)��当�?fork() 创徏另一个新�q�程�Ӟ��新进�E�是子进�E�，原始�q�程是父�q�程。这创徏�?ji��n)可能非常有用的层次关系�Q�尤其是�{�待子进�E�终止时。例如，waitpid() 函数让当前进�E�等待所有子�q�程�l�止。waitpid() 用来在父�q�程中实现简单的清理�q�程�?/p>
�?POSIX �U�程��更有意思。�?zh��n)�可能已经注意到我一直有意避免��?#8220;父线�E?#8221;�?#8220;子线�E?#8221;的说法。这是因�?POSIX �U�程中不存在�q�种层次关系。虽然主�U�程可以创徏一个新�U�程�Q�新�U�程可以创徏另一个新�U�程�Q�POSIX �U�程标准��它们视为等同的层次。所以等待子�U�程退出的概念在这里没有意义。POSIX �U�程标准不记录�Q�?#8220;家族”信息。缺��家族信息有一个主要含意：(x��)如果要等待一个线�E�终止，��必��d��U�程�?tid 传递给 pthread_join()。线�E�库无法为�?zh��n)�断�?tid�?/p>
对大多数开发者来说这不是个好消息�Q�因��?x��)��有多个线�E�的�E�序复杂化。不�q�不要�ؓ(f��)此担忧。POSIX �U�程标准提供�?ji��n)有效地��理多个�U�程所需要的所有工兗��实际上�Q�没有父/子关�p�这一事实却�ؓ(f��)在程序中使用�U�程开辟了(ji��n)更创造性的�Ҏ(gu��)��。例如，如果有一个线�E�称为线�E?1�Q�线�E?1 创徏�?ji��n)称为线�E?2 的线�E�，则线�E?1 自己没有必要调用 pthread_join() 来合�q�线�E?2�Q�程序中其它��M��U�程都可以做到。当�~�写大量使用�U�程的代码时�Q�这��可能允许发生有��的事情。例如，可以创徏一个包含所有已停止�U�程的全局“�ȝ��E�列�?#8221;�Q�然后让一个专门的清理�U�程专等停止的线�E�加到列表中。这个清理线�E�调�?pthread_join() ��刚停止的线�E�与自己合�ƈ。现在，仅用一个线�E�就巧妙和有效地处理�?ji��n)全部清理�?br>

同步漫游

现在我们来看一些代码，�q�些代码做了(ji��n)一些意想不到的事情。thread2.c 的代码如下：(x��)

thread2.c

#include #include #include #include int myglobal; void *thread_function(void *arg) { int i,j; for ( i=0; i<20; i++) { j=myglobal; j=j+1; printf("."); fflush(stdout); sleep(1); myglobal=j; } return NULL; } int main(void) { pthread_t mythread; int i; if ( pthread_create( &mythread, NULL, thread_function, NULL) ) { printf("error creating thread."); abort(); } for ( i=0; i<20; i++) { myglobal=myglobal+1; printf("o"); fflush(stdout); sleep(1); } if ( pthread_join ( mythread, NULL ) ) { printf("error joining thread."); abort(); } printf("\nmyglobal equals %d\n",myglobal); exit(0); }

理解 thread2.c

如同�W�一个程序，�q�个�E�序创徏一个新�U�程。主�U�程和新�U�程都将全局变量 myglobal 加一 20 �ơ。但是程序本�w��生了(ji��n)某些意想不到的结果。编译代码请输入�Q?/p>

$ gcc thread2.c -o thread2 -lpthread

�q�行误��入：(x��)

$ ./thread2

输出�Q?/p>

$ ./thread2 ..o.o.o.o.oo.o.o.o.o.o.o.o.o.o..o.o.o.o.o myglobal equals 21

非常意外吧！因�ؓ(f��) myglobal 从零开始，�ȝ��E�和新线�E�各自对其进行了(ji��n) 20 �ơ加一, �E�序�l�束�?myglobal 值应当等�?40。由�?myglobal 输出�l�果�?21�Q�这其中肯定有问题。但是究竟是什么呢�Q?/p>
攑ּ�吗？好，让我来解释是怎么一回事。首先查看函�?thread_function()。注意如何将 myglobal 复制到局部变�?"j" �?ji��n)�? 接着��?j 加一, 再睡眠一�U�，然后到这时才��新�?j 值复制到 myglobal�Q�这��是关键所在。设想一下，如果�ȝ��E�就在新�U�程��?myglobal 值复制给 j �?/strong> 立即��?myglobal 加一�Q�会(x��)发生什么？�?thread_function() ��?j 的值写�?myglobal �Ӟ��p��盖了(ji��n)�ȝ��E�所做的修改�?

当编写线�E�程序时�Q�应避免产生�q�种无用的副作用�Q�否则只�?x��)浪��?gu��)��_(d��)��当然�Q�除�?ji��n)编写关�?POSIX �U�程的文章时有用�Q�。那么，如何才能排除�q�种问题呢？

�׃��是将 myglobal 复制�l?j �q�且�{�了(ji��n)一�U�之后才写回时��生问题，可以��试避免使用临时局部变量�ƈ直接��?myglobal 加一。虽然这�U�解��x(ch��ng)��案对�q�个特定例子适用�Q�但它还是不正确。如果我们对 myglobal �q�行相对复杂的数学运��，而不是简单的加一�Q�这�U�方法就�?x��)失效。但是�ؓ(f��)什么呢�Q?/p>
要理解这个问题，必须��C��U�程是�ƈ发运行的。即使在单处理器�pȝ��上运行（内核利用旉��分片模拟多�Q务）(j��)也是可以的，从程序员的角度，惛_��两个�U�程是同时执行的。thread2.c 出现问题是因�?thread_function() 依赖以下论据�Q�在 myglobal 加一之前的大�U�一�U�钟期间不会(x��)修改 myglobal。需要有些途径让一个线�E�在�?myglobal 做更�Ҏ(gu��)��通知其它�U�程“不要靠近”。我��在下一��文章中讲解如何做到�q�一炏V��到时候见�?/p>

参考资�?

参阅 Linux threads中的文��Q�Sean Walton, KB7rfa

�?An Introduction to Pthreads-Tcl 中，查看�?Tcl 的更改以使其能够使用 POSIX �U�程

使用友好�?Linux pthread 在线帮助 ("man -k pthread")

参�?POSIX and DCE threads for Linux主页

查看 The LinuxThreads Library

Proolix �Q�一�U�简单遵�?POSIX 标准的操作系�l�，用于 i8086+�Q�一直在开发中

阅读 David R. Butenhof 的著�?Programming with POSIX Threads�Q�书中讨��Z��(ji��n)许多问题�Q�其中谈��C��使用互斥对象是可能出现的�U�种情况

关于作�?/span>

Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q?Gentoo ��目的总设计师�Q�多�?MacMillan 出版书籍的作者，包括�Q?Caldera OpenLinux Unleashed�?SuSE Linux Unleashed�?Samba Unleashed 。Daniel 自小学二�q��起就与计��机�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和刚出生的女�?Hadassah 一起共渡时光。可通过 drobbins@gentoo.org �?Daniel Robbins 取得联系�?

沙漠里的�� 2010-03-11 11:39 发表评论

Linux下用信号量实现对�׃�n内存的访问保�?�?

沙漠里的�� — Wed, 03 Mar 2010 05:49:00 GMT
前面利用Linux中的�pȝ��V�׃�n内存机制和semaphore来实��C��(ji��n)一个简单的�q�程�U�共享内存，但仅仅是一个简单实玎ͼ��q�有很多�l�节问题没有考虑�Q�比如：(x��)
1�Q�很多资料中讲到�Q�系�l�V�׃�n内存是随内核持箋的，即��所有访问共享内存的�q�程都已�l�正常终止，�׃�n内存?sh��)��然存在�Q�在内核引导之前�Q�对该共享内存区域的��M��改写操作都将一直保留，除非昑ּ�删除�׃�n内存。的��是�q�样的，�pȝ��V机制分配的共享内存将一直保留，若要删除要么重启�pȝ��Q�要么就调用shmctl来显�C�删除。那么，shmctl怎么使用呢？�q�在下面��会(x��)讲到�?br>
2�Q�对于两个不同的�q�程�Q�如何在其中一个进�E�满��x(ch��ng)��U�条件时唤醒另一个进�E�呢�Q�下面也�?x��)讲到�?br>
.....................................(待箋)

沙漠里的�� 2010-03-03 13:49 发表评论

Linux下用信号量实现对�׃�n内存的访问保�?一)

沙漠里的�� — Wed, 03 Mar 2010 03:42:00 GMT
     摘要: 最�q�一直在研究多进�E�间通过�׃�n内存来实现通信的事情，以便高效率地实现对同一数据的访问。本文中对共享内存的实现采用�?ji��n)系�l�V的机�Ӟ��我们的重点在于通过信号量来完成对不同进�E�间�׃�n内存资源的一致性访问，�׃�n内存的具体方法请参见相关资料�Q�这里不再赘�q�。首先我们先实现最��单的�׃�n内存�Q�一个进�E�对其更斎ͼ�另一个进�E�从中读出数据。同�Ӟ��通过信号量的PV操作来达到对�׃�n内存资源的保护。思�\如下�Q?.server�?..  阅读全文

沙漠里的�� 2010-03-03 11:42 发表评论

什么是集群�Q�哪�U�群集适合�(zh��n)�？

沙漠里的�� — Fri, 18 Dec 2009 09:04:00 GMT

��单的��_(d��)��集群�Q�cluster�Q�就是一�l�计��机�Q�它们作��Z��个整体向用户提供一�l�网�l�资源。这些单个的计算机系�l�就是集��的节点�Q�node�Q�。一个理想的集群是，用户从来不会(x��)意识到集��系�l�底层的节点�Q�在�?她们看来�Q�集��是一个系�l�，而非多个计算机系�l�。�ƈ且集��系�l�的��理员可以随意增加和删改集群�pȝ��的节炏V�?

集群�q�不是一个全新的概念�Q�其实早在七十年代计��机厂商和研�I�机构就开始了(ji��n)寚w��系�l�的研究和开发。由于主要用于科学工�E�计��，所以这些系�l��ƈ不�ؓ(f��)大家所熟知。直到Linux集群的出玎ͼ�集群的概忉|��得以�q��ؓ(f��)传播。集��系�l�主要分为高可用(High Availability)集群,��U?HA 集群�Q�和高性能计算(High Perfermance Computing)集群�Q�简�U?HPC 集群�?/p>
通过下面�q�篇文章我们可以�Ҏ(gu��)��面面�?ji��n)�?Linux 集群涉及(qi��ng)的硬件和软�g�?br>

哪种��集适合�(zh��n)�？

2000 �q?5 �?01 �?/p>
Rawn Shah 作�ؓ(f��)专家�Q�在 Linux 现有的开放源码和��闭源码集群解决�Ҏ(gu��)��斚w��为�?zh��n)�指点�q�h�|�?/blockquote>
计算 Linux 中集��项目的数量��p��计算��谷中创业公司的数量一栗��不�?Windows NT 已经受其自��n的封闭环境阻��，Linux 有大量的集群�pȝ��可供选择�Q�适合于不同的用途和需要。但��定应该使用哪一个集��的工作却没有因此变得简单�?/p>
问题的部分原因在于术语集��用于不同场合。IT �l�理可能兛_��(j��)如何使服务器�q�行旉��更长�Q�或使应用程序运行得更快�Q�而数学家可能更关�?j��)在服务器上�q�行大规模数��D��。两者都需要群集，但是各自需要不同特性的��集�?/p>
本文调查�?ji��n)不同�Ş式的集群以�?qi��ng)许多实现中的一部分�Q�这些实现可以买刎ͼ�也可以免费��Y件�Ş式获得。尽��列出的所有解��x(ch��ng)��案�ƈ不都是开放源码，但是大多数��Y仉��遵��@分发 Linux 源码的公共惯例，特别是由于那些实现集��的��常常希望调整�pȝ��性能�Q�以满��需要�?/p>
��g

集群��L��涉及(qi��ng)到机器之间的��g�q�接。在��C��大多数情况下�Q�这只是�?#8220;快速以太网”�|�卡和集�U�器。但在尖端科学领域中�Q�有许多专�ؓ(f��)集群设计的网�l�接口卡�?/p>
它们包括 Myricom �?Myrinet、Giganet �?cLAN �?IEEE 1596 标准可�׾~�一致接�?(SCI)。那些卡的功能不但在��集的节点之间提供高带宽�Q�而且�q�减��g�q�（发送消息所用的旉��Q�。对于在节点间交换状态信息以使其操作保持同步情况�Q�那些�g�q�是臛_��重要的�?/p>

Myricom

Myricom 提供�|�卡和交换机�Q�其单向互连速度最高可辑ֈ� 1.28 Gbps。网卡有两种形式�Q�铜�U�型和光�U�型。铜�U�型 LAN 可以�?10 英尺距离内以全速进行通信�Q�而在长达 60 英尺距离内以半速进行操作。光�U�型 Myrinet 可以�?6.25 英里长的单模光纤或�?340 英尺长的多模光纤上全速运行。Myrinet 只提供直接点到点、基于集�U�器或基于交换机的网�l�配�|�，但在可以�q�接��C��L(f��ng)��交换光纤数量斚w��没有限制。添加交换光�U�只�?x��)增加节炚w��的�g�q�。两个直接连接的节点之间的��^均�g�q�是 5 �?18 微秒�Q�比以太�|�快得多�?/p>

集群�c�d��

最常见的三�U�群集类型包括高性能�U�学��集、负载均衡群集和高可用性群集�?/p>

�U�学��集

通常�Q�第一�U�涉�?qi��ng)��?f��)��集开发�ƈ行编�E�应用程序，以解军_��杂的�U�学问题。这是�ƈ行计��的基础�Q�尽��它不��用专门的�q�行��计算机，�q�种��计算机内部由十至上万个独立处理器�l�成。但它却使用商业�pȝ��Q�如通过高速连接来链接的一�l�单处理器或双处理器 PC�Q��ƈ且在公共消息传递层上进行通信以运行�ƈ行应用程序。因此，�(zh��n)�会(x��)常常听说又有一�U�便宜的 Linux ��计算机问世了(ji��n)。但它实际是一个计��机��集�Q�其处理能力与真的超�U�计��机相等�Q�通常一套象��L(f��ng)��集配置开销要超�q?$100,000。这对一般�h来说��g��是太贵了(ji��n)�Q�但与�h(hu��n)��g��百万��元的专用超�U�计��机相比�q�算是便宜的�?/p>

负蝲均衡��集

负蝲均衡��集��Z��业需求提供了(ji��n)更实用的�pȝ��。如名称所暗示的，该系�l��负蝲可以在计��机��集中尽可能�q�_��地分摊处理。该负蝲可能是需要均衡的应用�E�序处理负蝲或网�l�流量负载。这��L(f��ng)��pȝ��非常适合于运行同一�l�应用程序的大量用户。每个节炚w��可以处理一部分负蝲�Q��ƈ且可以在节点之间动态分配负载，以实现��^衡。对于网�l�流量也是如此。通常�Q�网�l�服务器应用�E�序接受�?ji��n)太多入�|�流量，以致无法�q�速处理，�q�就需要将��量发送给在其它节点上�q�行的网�l�服务器应用。还可以�Ҏ(gu��)��每个节点上不同的可用资源或网�l�的�Ҏ(gu��)��环境来进行优化�?/p>

高可用性群�?/span>

高可用性群集的出现是�ؓ(f��)�?ji��n)�ɾ��集的整体服务尽可能可用�Q�以便考虑计算��g和��Y件的易错性。如果高可用性群集中的主节点发生�?ji��n)故障，那么�q�段旉��内将由次节点代替它。次节点通常是主节点的镜像，所以当它代替主节点�Ӟ��它可以完全接��其�w�䆾�Q��ƈ且因此�ɾpȝ��环境对于用户是一致的�?/p>
在群集的�q�三�U�基本类型之��_(d��)��l�常�?x��)发生�؜合与交杂。于是，可以发现高可用性群集也可以在其节点之间均衡用户负蝲�Q�同时仍试图�l�持高可用性程度。同��P��可以从要�~�入应用�E�序的群集中扑ֈ�一个�ƈ行群集，它可以在节点之间执行负蝲均衡。尽��集��系�l�本�w�独立于它在使用的��Y件或��g�Q�但要有效运行系�l�时�Q�硬件连接将起关键作用�?/p>

Giganet

Giganet 是用�?Linux �q�_��的虚拟接�?(VI) 体系�l�构卡的�W�一家供应商�Q�提�?cLAN 卡和交换机。VI 体系�l�构是独立于�q�_��的��Y件和��g�pȝ��Q�它�?Intel 开发，用于创徏��集。它使用自己的网�l�通信协议在服务器之间直接交换数据�Q�而不是��?IP�Q��ƈ且它�q�不打算成�ؓ(f��) WAN 可�\��q��pȝ��。现在，VI 的未来取决于正在�q�行�?#8220;�pȝ�� I/O �l?#8221;的工作，�q�个��组本是 Intel 领导�?#8220;下一�?I/O”��组�?IBM �?Compaq 领导�?#8220;未来 I/O ��组”的合�q�。Giganet 产品当前可以在节点之间提�?1 Gbps 单向通信�Q�最��g�q��ؓ(f��) 7 微秒�?/p>

IEEE SCI

IEEE 标准 SCI 的�g�q�更��（低于 2.5 微秒�Q�，�q�且其单向速度可达�?400 MB�Q�秒 (3.2 Gbps)。SCI 是基于环拓扑的网�l�系�l�，不像以太�|�是星�Ş拓扑。这��在较大规模的节点之间通信速度更快。更有用的是环面拓扑�|�络�Q�它在节点之间有许多环�Ş�l�构。两�l�环面可以用 n �?m 的网��D��C�，其中在每一行和每一列都有一个环形网�l�。三�l�环面也�c�M��Q�可以用三维立体节点�|�格表示�Q�每一层上有一个环形网�l�。密集超�U�计��ƈ行系�l��用环面拓扑网�l�，为成百上千个节点之间的通信提供相对最快的路径�?/p>
大多数操作系�l�的限制因素不是操作�pȝ��或网�l�接口，而是服务器的内部 PCI �ȝ��pȝ��。几乎所有台�?PC 通常有基�?32-位，33-MHz PCI�Q��ƈ且大多数低端服务器只提供 133 MB�Q�秒 (1 Gbps)�Q�这限制�?ji��n)那些网卡的能力。一些昂�늚�高端服务器，�?Compaq Proliant 6500 �?IBM Netfinity 7000 �p�d��Q�都�?64-位， 66-MHz �|�卡�Q�它们能够以四倍速度�q�行。不�q�地是，矛盾是更多公�怋�用低端的�pȝ��Q�因此大多数供应商最�l�生产和销售更多低�?PCI �|�卡。也有专门的 64-位，66-MHz PCI �|�卡�Q�但��h��要贵许多。例如，Intel 提供�?ji��n)这�U�类型的“快速以太网”�|�卡�Q��h(hu��n)格约 $400 �?$500�Q�几乎是普�?PCI 版本��h��?5 倍�?/p>

�U�学��集

某些�q�行��集�pȝ��可以辑ֈ�如此高的带宽和低延迟�Q�其原因是它们通常�l�过使用�|�络协议�Q�如 TCP/IP。虽然网际协议对于广域网很重要，但它包含�?ji��n)太多的开销�Q�而这些开销在节点相互已知的��闭�|�络��集中是不必要的。其实，那些�pȝ��中有一部分可以在节点之间��用直接内存访�?(DMA)�Q�它�c�M��于图形卡和其它外围设备在一台机器中的工作方式。因此横跨群集，可以通过��M��节点上的��M��处理器直接访问一�U��Ş式的分布式共享内存。它们也可以使用低开销的消息传递系�l�，在节点之间进行通信�?/p>
消息传递接�?(MPI) 是�ƈ行群集系�l�间消息传递层的最常见实现。MPI 存在几种衍生版本�Q�但在所有情况下�Q�它为开发者访问�ƈ行应用程序提供了(ji��n)一个公�?API�Q�这样开发者就不必手工解决如何在群集的节点之间分发代码�D�c(di��n)��其中一个，Beowulf �pȝ��首先��?MPI 用作公共�~�程接口�?/p>
很难军_��使用哪种高性能集群包。许多都提供�c�M��服务�Q�但计算的具体要求才是决定性因素。很多情况下�Q�在那些�pȝ��中的研究工作只是解决需求的一半，而且使用那些软�g需要集��包开发者的�Ҏ(gu��)��帮助和合作�?/p>

Beowulf

当谈�?Linux 集群�Ӟ��许多人的�W�一反映�?Beowulf。那是最著名�?Linux �U�学软�g集群�pȝ��。没有一个包叫做 Beowulf。实际上�Q�它是一个术语，适用于在 Linux 内核上运行的一�l�公��p�Y件工兗��其中包括流行的软�g消息传�?API�Q�如“消息传送接�?#8221;(MPI) �?#8220;�q�行虚拟�?#8221;(PVM)�Q�对 Linux 内核的修改，以允许结合几个以太网接口、高性能�|�络驱动器，对虚拟内存管理器的更改，以及(qi��ng)分布式进�E�间通信 (DIPC) 服务。公共全局�q�程标识�I�间允许使用 DIPC 机制从�Q何节点访问�Q何进�E�。Beowulf �q�在节点间支持一�p�d��g�q�通性选�g�?/p>
Beowulf 可能是考虑 Linux 时注意到的第一个高性能集群�pȝ��Q�这只是因�ؓ(f��)它的�q�泛使用和支持。关于这个主题，有许多文档和书籍。Beowulf 与以下一些科学集��系�l�之间的差异可以是实际的�Q�或者只是在产品名称中有差异。例如，��管名称不同�Q�Alta Technologies �?AltaCluster ��是一�?Beowulf �pȝ��。某些供应商�Q�如 ParTec AG�Q�一家�d国公司，提供�?Beowulf 模型的衍生版本，以包括其它管理接口和通信协议�?/p>

Giganet cLAN

Giganet 提供�?ji��n)一�U�定制的��Z��g的解��x(ch��ng)��案，它��用非 IP 协议在一个科学群集的节点间进行通信。如前所�q�ͼ�“虚拟接口”协议通过除去不少协议的开销�Q�如 IP�Q�以支持服务器间更快的通信。另外，��g�pȝ��可按千兆比特速度�q�行�Q��ƈ且�g�q�很短，使它非常适合构徏最多达 256 个节点的�U�学��集。该供应商支�?MPI�Q�这栯��多�ƈ行应用程序就可以在类似的�pȝ��Q�如 Beowulf�Q�上�q�行�?/p>
它也�?Beowulf 的缺点，即不能用作网�l�负载共享系�l�，除非惌��~�写应用�E�序来监控和分发在服务器间传送的�|�络包�?br>

Legion

Legion 试图构徏一个真正的多计��机�pȝ��。这是一个群集，其中每个节点都是一个独立系�l�，但在用户看来�Q�整个系�l�只是一台计��机。Legion 设计成支持一��C��界范围的计算机，�׃��百万个主��Z��?qi��ng)数以万亿计的��Y件对象组成。在 Legion 中，用户可以创立他们自己的合作小�l��?/p>
Legion 提供�?ji��n)高性能�q�行、负载均衡、分布式数据��理和容错性�?/p>
Legion 提供�?ji��n)高性能�q�行、负载均衡、分布式数据��理和容错性。它通过其容错管理和成员节点间的动态重新配�|�来支持高可用性。它�q�有一个可扩充核心(j��)�Q�该核心(j��)可以在出现新的改�q�和�q�展时动态替换或升��。系�l��ƈ不是只接受单一控制�Q�而是可以�׃�Q意数量的�l�织��理�Q�而每个组�l�都支持整体的自治部分。Legion API 通过其内�|�的�q�行性提供了(ji��n)高性能计算�?/p>
Legion 需要��用特别编写的软�g�Q�以使它可以使用�?API 库。它位于用户计算机操作系�l�之上，协调本地资源和分布式资源。它自动处理资源调度和安全性，�q�管理上下文�I�间以描�q�和讉K��整个�pȝ��中上亿种可能之外的对象。然而，在每个节点上�q�行�Ӟ��不需要��用系�l�管理员�Ҏ(gu��)��Q��ƈ且可以��用无�Ҏ(gu��)��的用户帐可��行工作。这��增加加�?Legion 的节点和用户的灵�z�L��?/p>

Cplant

Sandia National Lab 中的 Computational Plant 是一个大规模整体�q�行��集�Q�用于实�?TeraFLOP�Q�万亿次��点�q�算�Q�计��ƈ构徏在商业组件上。整个系�l�由“可�׾~�单�?#8221;�l�成�Q�这�?#8220;可�׾~�单�?#8221;可以划分成适合不同目的�Q�计��、磁�?I/O、网�l?I/O、服务管理）(j��)。群集中的每个节炚w��是一�?Linux �pȝ��Q�带有专门开发的、提供分区服务的内核�U�模块。每个分区的功能可以通过装入和卸载内核��模块来修攏V�?/p>
��目分三个阶�D�完成，开始阶�D�|��原型�Q�有 128 个基�?433-MHz DEC Alpha 21164 的系�l�，其中每个都有 192 MB RAM �?2 GB 驱动器，�怺�之间�?Myrinet �|�卡�?8-端口�?SAN 交换��接。第 1 阶段��它扩充�?400 个基�?21164 的工作站�Q�这些工作站的运行速度�?500 MHz�Q�有 192 MB RAM�Q�没有存储器�Q�用 16-端口�?SAN 交换��Z��立方体�l�构�q�接��h��Q��ƈ且运�?Red Hat 5.1。当前的�W?2 阶段�?592 台基�?DEC 21264 的机器，它们的运行速度�?500 MHz�Q�有 256 MB RAM�Q�没有驱动器。每个节炚w��使用 64-位，33-MHz PCI Myrinet �|�卡�Q��ƈ且仍使用 16-端口交换��Z��立方体�l�构�q�接�?/p>
�?Cplant 上运行的应用�E�序包括解决�E�疏线性系�l�、流体力学和�l�构力学中计��系�l�的优化、分子力学的模拟、线性结构力学的有限元分析，以及(qi��ng)�q�行应用�E�序的动态负载均衡库�?/p>

JESSICA 2

香港大学的系�l�研�I�小�l�有一个基�?Java 的群集，叫做支持 Java 的单�pȝ��映像计算体系�l�构 (JESSICA)�Q�它作�ؓ(f��)一个中间�g层以完成单系�l�映像的�q�L��。该层是每个使用分布式共享内�?(DSM) �pȝ��q�行通信的节点上�q�行的所有线�E�的一个全局�U�程�I�间。该��目使用 ThreadMark DSM�Q�但最�l�将用他们自己创建的 JiaJia Using Migrating-home Protocol (JUMP)。他们��用定制的��Z�� Java �?ClusterProbe 软�g来管理群集的 50 个节炏V�?/p>

PARIS

法国�?IRISA 研究所�?#8220;大规模数字模拟应用程序的�~�程�q�行和分布式�pȝ��”(PARIS) ��目提供�?ji��n)几�U�用于创�?Linux 服务器群集的工具。该��目�׃��部分�l�成�Q�群集的资源��理软�g、�ƈ行编�E�语�a�的运行时环境�Q�以�?qi��ng)分布式数字模拟的��Y件工兗��?/p>
资源��理软�g包括用于�׃�n内存、磁盘和处理器资源的 Globelins 分布式系�l�，�?qi��ng)�?Dupleix �?Mome 分布式共享内存系�l��?/p>

负蝲均衡��集

负蝲均衡��集在多节点之间分发�|�络或计��处理负载。在�q�种情况下，区别在于�~�少跨节点运行的单�ƈ行程序。大多数情况下，那种��集中的每个节点都是�q�行单独软�g的独立系�l�。但是，不管是在节点之间�q�行直接通信�Q�还是通过中央负蝲均衡服务器来控制每个节点的负载，在节点之间都有一�U�公共关�p�R��通常�Q��用特定的��法来分发该负蝲�?/p>
�|�络��量负蝲均衡是一个过�E�，它检查到某个��集的入�|�流量，然后��流量分发到各个节点以进行适当处理。它最适合大型�|�络应用�E�序�Q�如 Web �?FTP 服务器。负载均衡网�l�应用服务要求群集��Y件检查每个节点的当前负蝲�Q��ƈ��定哪些节点可以接受新的作业。这最适合�q�行如数据分析等串行和批处理作业。那些系�l�还可以配置成关注某特定节点的硬件或操作�pȝ��功能�Q�这��P��集中的节点��没有必要是一致的�?/p>

Linux 虚拟服务�?/span>

“Linux 虚拟服务�?#8221;��目已经实现�?ji��n)许多内核补丁，它们为入�|?TCP/IP ��量创徏�?ji��n)负载均衡系�l�。LVS 软�g��(g��)查入�|�流量，然后�Ҏ(gu��)��负蝲均衡��法�Q�将��量重定向到一�l�充当群集的服务器。这允许�|�络应用�E�序�Q�如 Web 服务器，在节点群集上�q�行以支持大量用戗��?/p>
LVS 支持作�ؓ(f��)负蝲均衡服务器直接连接到同一�?LAN 的群集节点，但它�q�能够以通道传�?IP 包的方式�q�接到远�E�服务器。后一�U�方法包括压�~?IP 包中的均衡请求，�q�些 IP 信息包从负蝲均衡服务器直接发送到�q�程��集节点。尽��?LVS 可以�q�程支持�|�站的负载均衡，但它使用的负载均衡算法现在对于虚拟群集中的广�?Web 服务器仍无效。因此，如果 Web 服务器都在同一�?LAN 中，LVS 最好当作负载均衡服务器使用�?/p>
负蝲均衡�pȝ��的几�U�硬件实现比在通用操作�pȝ��Q�如 Linux�Q�上�q�行得更快。它们包括来�?Alteon �?Foundry 的硬�Ӟ��其硬仉��辑和最��操作系�l�可以在��g中执行流量管理，�q�且速度比纯软�g快。它们的��h��也很高，通常都在 $10,000 以上。如果需要简单和便宜的解��x(ch��ng)��案，一个有很多内存 (256 MB) 的中�{?Linux �pȝ��会(x��)是一个好的负载均衡系�l��?br>

TurboLinux TurboCluster �?enFuzion

TurboLinux 有一个��品叫 TurboCluster�Q�它最初以“Linux 虚拟服务�?#8221;��目开发的内核补丁为基��。因此，它可以得到大部分优点�Q�但它的�~�点也与原来的项目一栗��TurboLinux 为此�q�开发了(ji��n)一些工��P��用于监控增加产品实用性的��集行�ؓ(f��)。一家主要供应商的商业支持也使它对于大型�|�站更具吸引力�?/p>
EnFuzion 支持在节点之间实现自动负载均衡和资源�׃�n�Q�而且可以自动重新安排��p�|的作业�?/p>
EnFuzion �?TurboLinux 卛_��推出的科学群集��品，它�ƈ不基�?Beowulf。但是，它可以支持上百个节点以及(qi��ng)许多不同的非 Linux �q�_��Q�包�?Solaris、Windows NT、HP-UX、IBM AIX、SGI Irix �?Tru64。EnFuzion 非常有趣�Q�因为它�q�行所有现有��Y�Ӟ��q�且不需要�ؓ(f��)环境�~�写定制的�ƈ行应用程序。它支持在节炚w��实现自动负蝲均衡和资源共享，而且可以自动重新安排��p�|的作业�?/p>

Platform Computing �?LSF 批处�?/span>

Platform Computing 是群集计��领域的老手�Q�现在提供了(ji��n) Linux �q�_��上的“负蝲均衡设施 (LSF) 批处�?#8221;软�g。LSF 批处理允�怸�央控制器安排作业在群集中��L��数量的节点上�q�行。在概念上，它类��g�� TurboLinux enFuzion 软�g�Q��ƈ且支持在节点上运行�Q何类型的应用�E�序�?/p>
�q�种�Ҏ(gu��)��对于��集大小是非常灵�zȝ��Q�因为可以明��选择节点的数量，甚至是运行应用程序的节点。于是，可以��?64 个节点的��集分成更小的逻辑��集�Q�每个逻辑��集都运行自��q��批处理应用程序。而且�Q�如果应用程序或节点��p�|�Q�它可以在其它服务器上重新安排作业�?/p>
Platform 的��品在主要 Unix �pȝ��?Windows NT 上运行。目前，只有它们�?LSF 批处理��品已�l�移植到 Linux 上。最�l�，LSF Suite �l��g的其余部分也��紧随其后移植到 Linux 上�?br>

Resonate Dispatch �p�d��

Resonate 有一�U�基于��Y件的负蝲均衡�Ҏ(gu��)��Q�类��g�� Linux 虚拟服务器。但是，它支持更多特性，以及(qi��ng)一些更好的负蝲均衡��法。例如，使用 Resonate�Q�可以在每个��集节点装入一个代理，以确定该节点当前的系�l�负载。然后，负蝲均衡服务器检查每个节点的代理�Q�以��定哪个节点的负载最��，�q�且��新的流量发送给它。另外，Resonate �q�可以��用它�?Global Dispatch 产品更有效地支持地区性分布式服务器�?/p>
Resonate 已经�?Red Hat Linux 上彻底测试了(ji��n)该��Y�Ӟ��怿�它也可以在其它发行版上运行。Resonate 的��Y件还可以在其它各�U��^��C��q�行�Q�包�?Solaris、AIX、Windows NT�Q��ƈ且它�q�可以在混合环境中进行负载均衡�?/p>

MOSIX

MOSIX 使用 Linux 内核新版本来实现�q�程负蝲均衡集群�pȝ��。该��集中，��M��服务器或工作站可以按指定加入或离开�Q�即��d��到群集的��d��理能力，或从中除厅R��根据其文��Q�MOSIX 使用自适应�q�程负蝲均衡和内存引导算法��整体性能最大化。应用程序进�E�可以在节点之间抢先�q�移�Q�以利用最好的资源�Q�这�c�M��于对�U�多处理器系�l�可以在各个处理器之间切换应用程序�?/p>
MOSIX 在应用层是完全透明的，�q�且不需要重新编译或者重新链接到新的库，因�ؓ(f��)所有一切都发生在内核��上。可以有几种�Ҏ(gu��)��它配置成多用户�׃�n环境��集。所有服务器可以�׃�n一个池�Q�系�l�可以是��集的一部分�Q�或者群集可以动态地分成几个子群集，每种�Ҏ(gu��)��都有不同的用途。Linux 工作站还可以是群集的一部分�Q�可以是固定的，也可以是临时的，或者只是作为批处理作业提交者。作��Z��(f��)时群集节点，工作站可以在其空闲时用于增加��集处理能力。也允许只以批处理方式��用群集，在这�U�方式中�Q�群集被配置成通过队列接受批处理作业。然后，守护�E�序取走作业�q�将它们发送到��集节点�q�行处理�?/p>
MOSIX 的不利之处是它更�?Linux 内核行�ؓ(f��)的一些核�?j��)部分，于是�pȝ��U�应用程序将不会(x��)按期望运行�?/p>
除了(ji��n)高性能�U�学计算�Q�MOSIX 提供�?ji��n)一个有��的选项�Q�用于以共同讄��创徏集群环境。通过使用服务器和工作站上的闲�|�资源，它可以更快更有效地创建和�q�行应用�E�序。由于访问了(ji��n)多台服务器，�q�且可以动态调整群集大��和更改负蝲均衡规则�Q�它�q�可以提供高度的服务器可用性。MOSIX 的不利之处是它更�?Linux 内核行�ؓ(f��)的一些核�?j��)部分，于是�pȝ��U�应用程序将不会(x��)按期望运行。要使用�|�络应用�E�序�Ӟ��而该�E�序使用��Z��单个服务器地址的套接字�q�接�Q�MOSIX 通常也会(x��)受到限制。这意味着�|�络应用�E�序在一个服务器节点上开始运行时�Q�如�?IP 地址与套接字�l�定�Q�那么它必须�l�箋在该节点上运行。显�?d��ng)��MOSIX �q�正在开始迁�U�d��接字�Q�因此这很快��变成了(ji��n)争论的焦炏V�?/p>

高可用性群�?/span>

高可用�?(HA) ��集致力于��服务器系�l�的�q�行速度和响应速度��可能快。它们经�怋�用在多台机器上运行的冗余节点和服务，用来�怺�跟踪。如果某个节点失败，它的替补��在几秒钟或更短旉��内接��它的职责。因此，对于用户而言�Q�群集永�q�不�?x��)停机�?/p>
某些 HA ��集也可以维护节炚w��冗余应用�E�序。因此，用户的应用程序将�l�箋�q�行�Q�即使他或她使用的节点出�?ji��n)故障。正在运行的应用�E�序�?x��)在几秒之内�q�移到另一个节点，而所有用户只�?x��)察觉到响应�E�微慢了(ji��n)一炏V��但是，�q�种应用�E�序�U�冗余要求将软�g设计成具有群集意识的�Q��ƈ且知道节点失败时应该做什么。但对于 Linux�Q�大多数现在�q�做不到。因�?Linux �pȝ��没有 HA 集群标准�Q��ƈ且也没有公共 API 可供应用�E�序开发者构建有��集意识的��Y件�?/p>
HA ��集可以执行负蝲均衡�Q�但通常��L��务器�q�行作业�Q�而系�l��辅助服务器保持闲�|�。辅助服务器通常是主服务器操作系�l�设�|�的镜像�Q�尽��硬件本�w�稍有不同。辅助节点对��L��务器�q�行�z�d��监控或心(j��)跌��察，以查看它是否仍在�q�行。如果心(j��)跌��时器没有接收��C��服务器的响应�Q�则辅助节点��接��网�l�和�pȝ��w�䆾�Q�如果是 Linux �pȝ��Q�则�?IP ��L��名和地址�Q��?/p>
但是�Q�Linux 在这一领域仍有一点忽略。好消息是有一家著名的供应商正在努力尽快研刉��可用性群集，因�ؓ(f��)它是企业�U�服务器都必需的功能�?/p>

Linux-HA ��目

高可用�?Linux ��目�Q�根据其目标声明�Q�旨在�ؓ(f��) Linux 提供高可用性解��x(ch��ng)��案，以通过�C�֌�开发成果提高可靠性、可用性和服务能力。Linux 辑ֈ�高可用性集��时�Q�这是一�U�试囄��?Linux 与先�q�的 Unix �pȝ��Q�如 Solaris、AIX �?HP/UX�Q�一样具有竞争力的特性。因此，��目的目标是�?2001 �q�之前达�?Unix 集群比较报告 ( http://www.sun.com/clusters/dh.brown.pdf) 中分析专家组 D. H. Brown 特定功能性��别�?

��目中有可以�l�护节点间心(j��)跛_ƈ接管��p�|节点�?IP 地址的��Y件。如果一个节点失败，它��?#8220;伪造冗�?IP”软�g包将��p�|节点的地址��d��到工作节点以承担它的职责。于是，可以在几毫秒旉��内自动替换失败的节点。实际��用中�Q�心(j��)跳通常在几�U�范围内�Q�除非在节点之间有专用网�l�链接。因此，��p�|�pȝ��中的用户应用�E�序仍需要在新的节点上重新启动�?/p>
无处不在的集��?/span>

对于 Linux�Q�有许多集群�pȝ��可供选用。同�Ӟ��那些��目中有几个是非商业性的�Q�甚��x(ch��ng)��实验性质的。虽然对学术界和某些�l�织�q�也没有形成问题�Q�但大公叔R��常首选著名供应商的商业支持��^台。供应商�Q�如 IBM、SGI、HP �?Sun�Q�提供了(ji��n)用于�?Linux 中构建科学群集的产品和服务，因�ؓ(f��)��集很流行，�q�且可以销售大量的服务器设备。一旦商业机构认为其它�Ş式的集群是可靠的�Q�那些相同的服务器供应商或许�?x��)围�l�着开放源码集��解��x(ch��ng)��案创��q��产品�?/p>
Linux 作�ؓ(f��)服务器��^台的重要性依赖于支持大型服务器和服务器群集的能力。这��׃��它可以与 Sun、HP、IBM 和其它公司的 UNIX 服务器在更高层面上竞争。虽�?Windows NT �?2000 不支�?Linux 能够支持的集��范��_(d��)��但是 HA 集群正规�Ҏ(gu��)��的可用性以�?qi��ng)用于构建有��集意识�?API 也��它能够参与竞争�?/p>
如果正在考虑构徏一个群集，那么�(zh��n)�应当仔�l�检查那些可能性，�q�将它们与�?zh��n)�的需求做比较。�?zh��n)�也许会(x��)发现想要实现的目标�q��(sh��)��能成��Z��个完整的解决�Ҏ(gu��)��Q�或�怼�(x��)发现已经有了(ji��n)现成的解��x(ch��ng)��案。不��是哪种情况�Q�请�怿�许多现有公司��他们的应用�E�序托�(sh��)��l�进行深度计��ƈ提供大量�|�页�?Linux �pȝ��集。集��是一�U�企业系�l�服务，已经�?Linux 下成功测试过。尽��新的集��将出现�Q�但选择的多��h��正�?Linux ��过其它�pȝ��Q�如 Windows NT�Q�的优势�?/p>
关于作�?/span>

Rawn Shah 是居住在亚利桑那州图��市(j��ng)的一位独立顾问。他多年来与多��^台问题打交道�q�撰写相��x(ch��ng)��章，但常��o(h��)他不解的是很��有人知道有用的�pȝ��工具�?/p>

沙漠里的�� 2009-12-18 17:04 发表评论

Linux下socket�~�程中的若干问题(持箋更新�?

沙漠里的�� — Thu, 20 Aug 2009 07:52:00 GMT

(1) 最�q�在linux下开发了(ji��n)一个通信服务�E�序�Q�主要负责与客户端徏立连接，转发客户端的消息�l�后��C��息处理模块，同时也将后台的处理结果�{发给客户端�?br>�׃��在windows下已�l�有�?ji��n)一个相同功能的�E�序�Q�便做了(ji��n)�U�L��。移植到l(f��)inux下功能是可以实现的，但发现此�E�序的cpu利用率非帔R��。经分析发现是linux下的
select调用与windows的select调用的一个区别造成的�?br>
�E�序处理��程如下�Q?br>

1bool msg_recv_thread(void)
2{
3    int          max = 0;
4    fd_set       readfds;         // �l�果�?/span>
5    struct timeval  RevTimeOut;
6    RevTimeOut.tv_sec = 1;        // 讑֮�select的超时时间�ؓ(f��)1s
7    RevtimeOut.tv_usec = 0;
8
9    while(1)
10    {
11        FD_SET(conn_socket, &readfds);
12        max = (max > conn_socket) ? max : conn_socket;
13        int ret = select(max+1, &readfds, NULL, NULL, &RevTimeOut);
14
15        if (ret <= 0)
16        {
17            continue;
18        }
19
20        if (FD_ISSET(conn_socket, &readfds) != 0)
21        {
22            // 接受�q�接��h��处理……
23        }
24
25        // 其他处理……
26}

windows下这��L(f��ng)��程没有问题�Q�但是在linux下，select调用在设定的��时旉��内等待时�?x��)不断地更新最后一个参敎ͼ��其实时更新为离讑֮�的超时时间的旉��差，直到�q�个��D��更新�?�Q�即到达��时旉��时select函数�q�回。在上面的程序段中，�W�一�ơ��@环时select的超时参数��gؓ(f��)1s�Q�当�W�一�ơ��@环完毕时�Q�RevTimeOut的值已�l�被变成�?�Q�这样以后的循环��׃��(x��)是无��d��的，卛_��果selec没有收到��M��的请求便立刻�q�回�Q�然后��l��@环，�q�样��Ş成了(ji��n)��d�@环，从而耗光�?ji��n)cpu�?br>
��上�q�程序段中的5-7行移到第13行以前，问题?sh��)��解决�?ji��n)�?br>

【�ȝ��?br>            �q�里涉及(qi��ng)��C��个编�E�习(f��n)惯的问题�Q�本人经验欠�~�，在做windows到l(f��)inux的移植时一直认为既然windows下正��那么linux一定也是正��的�Q�完全没有考虑��C��个OS好之间的�pȝ��调用斚w��的区别，��D��开始时��搞错了(ji��n)方向�Q�浪费了(ji��n)不少旉��。希望大家不要犯我这��L(f��ng)��错误�?br>

沙漠里的�� 2009-08-20 15:52 发表评论

QQ游戏百万人同时在�U�服务器架构实现(转蝲)

沙漠里的�� — Sat, 15 Aug 2009 07:29:00 GMT
     摘要:   阅读全文

沙漠里的�� 2009-08-15 15:29 发表评论

堆和栈的区别 (转脓(chu��ng))

沙漠里的�� — Tue, 19 May 2009 08:53:00 GMT

堆和栈的区别 (转脓(chu��ng))

非本��Z��?因非常经�?所以收归旗�?与众人阅�?原作者不��?

堆和栈的区别
一、预备知识—程序的内存分配
一个由c/C++�~�译的程序占用的内存分�ؓ(f��)以下几个部分
1、栈区（stack�Q��?nbsp;��q��译器自动分配释放 �Q�存攑և�数的参数��|��局部变量的值等。其操作方式�c�M��于数据结构中的栈�?br>2、堆区（heap�Q?nbsp;�?nbsp;一般由�E�序员分配释放，若程序员?sh��)��释放，�E�序�l�束时可能由O(ji��n)S回收。注意它与数据结构中的堆是两回事�Q�分配方式倒是�c�M��于链表，呵呵�?br>3、全局区（�?r��n)态区�Q�（static�Q�—，全局变量和静(r��n)态变量的存储是放在一块的�Q�初始化的全局变量和静(r��n)态变量在一块区域，未初始化的全局变量和未初始化的�?r��n)态变量在盔R��的另一块区域�?nbsp;- �E�序�l�束后有�pȝ��释放
4、文字常量区—常量字�W�串��是攑֜��q�里的�?nbsp;�E�序�l�束后由�pȝ��释放
5、程序代码区—存攑և��C��的二�q�制代码�?br>二、例子程�?nbsp;
�q�是一个前辈写的，非常详细
//main.cpp
int a = 0; 全局初始化区
char *p1; 全局未初始化�?nbsp;
main()
{
int b; �?nbsp;
char s[] = "abc"; �?nbsp;
char *p2; �?nbsp;
char *p3 = "123456"; 123456\0在常量区�Q�p3在栈上�?nbsp;
static int c =0�Q?nbsp;全局�Q�静(r��n)态）(j��)初始化区
p1 = (char *)malloc(10);
p2 = (char *)malloc(20);
分配得来�?0�?0字节的区域就在堆区�?nbsp;
strcpy(p1, "123456"); 123456\0攑֜�帔R��区，�~�译器可能会(x��)��它与p3所指向�?123456"优化成一个地斏V�?nbsp;
}

二、堆和栈的理论知�?nbsp;
2.1甌��方式
stack:
��q��l�自动分配�?nbsp;例如�Q�声明在函数中一个局部变�?nbsp;int b; �pȝ��自动在栈中�ؓ(f��)b开辟空�?nbsp;
heap:
需要程序员自己甌��Q��ƈ指明大小�Q�在c中malloc函数
如p1 = (char *)malloc(10);
在C++中用new�q�算�W?nbsp;
如p2 = (char *)malloc(10);
但是注意p1、p2本��n是在栈中的�?nbsp;

2.2
甌��后系�l�的响应
栈：(x��)只要栈的剩余�I�间大于所甌��I�间�Q�系�l�将为程序提供内存，否则��报异常提示栈溢出�?nbsp;
堆：(x��)首先应该知道操作�pȝ��有一个记录空闲内存地址的链表，当系�l�收到程序的甌��Ӟ��
�?x��)遍历该链表�Q�寻扄��一个空间大于所甌��I�间的堆�l�点�Q�然后将该结点从�I�闲�l�点链表中删除，�q�将该结点的�I�间分配�l�程序，另外�Q�对于大多数�pȝ��Q�会(x��)在这块内存空间中的首地址处记录本�ơ分配的大小�Q�这��P��代码中的delete语句才能正确的释放本内存�I�间。另外，�׃��扑ֈ�的堆�l�点的大��不一定正好等于申��L(f��ng)��大小�Q�系�l�会(x��)自动的将多余的那部分重新攑օ��I�闲链表中�?nbsp;

2.3甌��大小的限�?nbsp;
栈：(x��)在Windows�?栈是向低地址扩展的数据结构，是一块连�l�的内存的区域。这句话的意思是栈顶的地址和栈的最大容量是�pȝ��预先规定好的�Q�在WINDOWS下，栈的大小�?M�Q�也有的说是1M�Q��M��是一个编译时��q��定的常数�Q�，如果甌��的空间超�q�栈的剩余空间时�Q�将提示overflow。因此，能从栈获得的�I�间较小�?nbsp;
堆：(x��)堆是向高地址扩展的数据结构，是不�q�箋的内存区域。这是由于系�l�是用链表来存储的空闲内存地址的，自然是不�q�箋的，而链表的遍历方向是由低地址向高地址。堆的大��受限于计算机系�l�中有效的虚拟内存。由此可见，堆获得的�I�间比较灉|��Q�也比较大�?nbsp;

2.4甌��效率的比较：(x��)
栈由�pȝ��自动分配�Q�速度较快。但�E�序员是无法控制的�?nbsp;
堆是由new分配的内存，一般速度比较慢，而且�Ҏ(gu��)��产生内存��片,不过用�v来最方便.
另外�Q�在WINDOWS下，最好的方式是用VirtualAlloc分配内存�Q�他不是在堆�Q�也不是在栈是直接在�q�程的地址�I�间中保留一快内存，虽然用�v来最不方�ѝ��但是速度快，也最灉|��?nbsp;

2.5堆和栈中的存储内�?nbsp;
栈：(x��) 在函数调用时�Q�第一个进栈的是主函数中后的下一条指令（函数调用语句的下一条可执行语句�Q�的地址�Q�然后是函数的各个参敎ͼ�在大多数的C�~�译器中�Q�参数是由右往左入栈的�Q�然后是函数中的局部变量。注意静(r��n)态变量是不入栈的�?nbsp;
当本�ơ函数调用结束后�Q�局部变量先出栈�Q�然后是参数�Q�最后栈��指针指向最开始存的地址�Q�也��是��d��C��的下一条指令，�E�序��p��点��l�运行�?nbsp;
堆：(x��)一般是在堆的头部用一个字节存攑֠�的大��。堆中的具体内容有程序员安排�?nbsp;

2.6存取效率的比�?nbsp;

char s1[] = "aaaaaaaaaaaaaaa";
char *s2 = "bbbbbbbbbbbbbbbbb";
aaaaaaaaaaa是在�q�行时刻赋值的�Q?nbsp;
而bbbbbbbbbbb是在�~�译时就��定的；
但是�Q�在以后的存取中�Q�在栈上的数�l�比指针所指向的字�W�串(例如�?快�?nbsp;
比如�Q?nbsp;
#include
void main()
{
char a = 1;
char c[] = "1234567890";
char *p ="1234567890";
a = c[1];
a = p[1];
return;
}
对应的汇�~�代�?nbsp;
10: a = c[1];
00401067 8A 4D F1 mov cl,byte ptr [ebp-0Fh]
0040106A 88 4D FC mov byte ptr [ebp-4],cl
11: a = p[1];
0040106D 8B 55 EC mov edx,dword ptr [ebp-14h]
00401070 8A 42 01 mov al,byte ptr [edx+1]
00401073 88 45 FC mov byte ptr [ebp-4],al
�W�一�U�在��d��时直接就把字�W�串中的元素��d��寄存器cl中，而第二种则要先把指针��D��到edx中，在根据edx��d��字符�Q�显然慢�?ji��n)�?nbsp;

2.7��结�Q?nbsp;
堆和栈的区别可以用如下的比喻来看出：(x��)
使用栈就象我们去饭馆里吃饭，只管点菜�Q�发出申��P��(j��)、付钱、和吃（使用�Q�，吃饱�?ji��n)就赎ͼ�不必理�?x��)切菜、洗菜等准备工作和洗��、刷锅等扫尾工作�Q�他的好处是快捷�Q�但是自由度��?nbsp;
使用堆就象是自己动手做喜�Ƣ吃的菜��_(d��)��比较�ȝ��(ch��)�Q�但是比较符合自��q��口味�Q�而且自由度大�?nbsp;

windows�q�程中的内存�l�构

在阅��L��文之前，如果你连堆栈是什么多不知道的话，请先阅读文章后面的基��知识�?nbsp;

接触�q�编�E�的人都知道�Q�高�U�语�a�都能通过变量名来讉K��内存?sh��)��的数据。那么这些变量在内存?sh��)��是如何存放的呢�Q�程序又是如何��用这些变量的呢？下面��׃��(x��)�Ҏ(gu��)��q�行深入的讨论。下文中的C语言代码如没有特别声明，默认都��用VC�~�译的release版�?nbsp;

首先�Q�来�?ji��n)解一�?nbsp;C 语言的变量是如何在内存分部的。C 语言有全局变量(Global)、本地变�?Local)�Q�静(r��n)态变�?Static)、寄存器变量(Regeister)。每�U�变量都有不同的分配方式。先来看下面�q�段代码�Q?nbsp;

#include

int g1=0, g2=0, g3=0;

int main()
{
static int s1=0, s2=0, s3=0;
int v1=0, v2=0, v3=0;

//打印出各个变量的内存地址

printf("0x%08x\n",&v1); //打印各本地变量的内存地址
printf("0x%08x\n",&v2);
printf("0x%08x\n\n",&v3);
printf("0x%08x\n",&g1); //打印各全局变量的内存地址
printf("0x%08x\n",&g2);
printf("0x%08x\n\n",&g3);
printf("0x%08x\n",&s1); //打印各静(r��n)态变量的内存地址
printf("0x%08x\n",&s2);
printf("0x%08x\n\n",&s3);
return 0;
}

�~�译后的执行�l�果是：(x��)

0x0012ff78
0x0012ff7c
0x0012ff80

0x004068d0
0x004068d4
0x004068d8

0x004068dc
0x004068e0
0x004068e4

输出的结果就是变量的内存地址。其中v1,v2,v3是本地变量，g1,g2,g3是全局变量�Q�s1,s2,s3是静(r��n)态变量。你可以看到�q�些变量在内存是�q�箋分布的，但是本地变量和全局变量分配的内存地址差了(ji��n)十万八千里，而全局变量和静(r��n)态变量分配的内存是连�l�的。这是因为本地变量和全局/�?r��n)态变量是分配在不同类型的内存区域中的�l�果。对于一个进�E�的内存�I�间而言�Q�可以在逻辑上分�?个部份：(x��)代码区，�?r��n)态数据区和动态数据区。动态数据区一般就�?#8220;堆栈”�?#8220;�?stack)”�?#8220;�?heap)”是两�U�不同的动态数据区�Q�栈是一�U�线性结构，堆是一�U�链式结构。进�E�的每个�U�程都有�U�有�?#8220;�?#8221;�Q�所以每个线�E�虽然代码一��P��但本地变量的数据都是互不�q�扰。一个堆栈可以通过“基地址”�?#8220;栈顶”地址来描�q�。全局变量和静(r��n)态变量分配在�?r��n)态数据区�Q�本地变量分配在动态数据区�Q�即堆栈中。程序通过堆栈的基地址和偏�U�量来访问本地变量�?nbsp;

├———————┤低端内存区域
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;动态数据区 �?nbsp;
├———————┤
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;代码�?nbsp;�?nbsp;
├———————┤
�?nbsp;�?r��n)态数据区 �?nbsp;
├———————┤
�?nbsp;…… �?nbsp;
├———————┤高端内存区域

堆栈是一个先�q�后出的数据�l�构�Q�栈��地址��L��于�{�于栈的基地址。我们可以先�?ji��n)解一下函数调用的�q�程�Q�以便对堆栈在程序中的作用有更深入的�?ji��n)解。不同的语言有不同的函数调用规定�Q�这些因素有参数的压入规则和堆栈的��^衡。windows API的调用规则和ANSI C的函数调用规则是不一��L(f��ng)��Q�前者由被调函数调整堆栈�Q�后者由调用者调整堆栈。两者通过“__stdcall”�?#8220;__cdecl”前缀区分。先看下面这�D�代码：(x��)

#include

void __stdcall func(int param1,int param2,int param3)
{
int var1=param1;
int var2=param2;
int var3=param3;
printf("0x%08x\n",¶m1); //打印出各个变量的内存地址
printf("0x%08x\n",¶m2);
printf("0x%08x\n\n",¶m3);
printf("0x%08x\n",&var1);
printf("0x%08x\n",&var2);
printf("0x%08x\n\n",&var3);
return;
}

int main()
{
func(1,2,3);
return 0;
}

�~�译后的执行�l�果是：(x��)

0x0012ff78
0x0012ff7c
0x0012ff80

0x0012ff68
0x0012ff6c
0x0012ff70

├———————┤<—函数执行时的栈��Ӟ��ESP�Q�、低端内存区�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;var 1 �?nbsp;
├———————┤
�?nbsp;var 2 �?nbsp;
├———————┤
�?nbsp;var 3 �?nbsp;
├———————┤
�?nbsp;RET �?nbsp;
├———————┤<�?#8220;__cdecl”函数�q�回后的栈顶�Q�ESP�Q?nbsp;
�?nbsp;parameter 1 �?nbsp;
├———————┤
�?nbsp;parameter 2 �?nbsp;
├———————┤
�?nbsp;parameter 3 �?nbsp;
├———————┤<�?#8220;__stdcall”函数�q�回后的栈顶�Q�ESP�Q?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—栈底（基地址 EBP�Q�、高端内存区�?nbsp;

上图��是函数调用�q�程中堆栈的样子�?ji��n)。首先，三个参数以从又到左的�ơ序压入堆栈�Q�先�?#8220;param3”�Q�再�?#8220;param2”�Q�最后压�?#8220;param1”�Q�然后压入函数的�q�回地址(RET)�Q�接着跌��{到函数地址接着执行�Q�这里要补充一点，介绍UNIX下的�~�冲溢出原理的文章中都提到在压入RET后，�l�箋压入当前EBP�Q�然后用当前ESP代替EBP。然而，有一��介�l�windows下函数调用的文章中说�Q�在windows下的函数调用也有�q�一步骤�Q�但�Ҏ(gu��)��我的实际调试�Q��ƈ未发现这一步，�q�还可以从param3和var1之间只有4字节的间隙这点看出来�Q�；�W�三步，��栈��?ESP)减去一个数�Q��ؓ(f��)本地变量分配内存�I�间�Q�上例中是减�?2字节(ESP=ESP-3*4�Q�每个int变量占用4个字�?�Q�接着��初始化本地变量的内存空间。由�?#8220;__stdcall”调用��p��调函数调整堆栈，所以在函数�q�回前要恢复堆栈�Q�先回收本地变量占用的内�?ESP=ESP+3*4)�Q�然后取�?gu��)��回地址�Q�填入EIP寄存器，回收先前压入参数占用的内�?ESP=ESP+3*4)�Q��l�执行调用者的代码。参见下列汇�~�代码：(x��)

;--------------func 函数的汇�~�代�?------------------

:00401000 83EC0C sub esp, 0000000C //创徏本地变量的内存空�?nbsp;
:00401003 8B442410 mov eax, dword ptr [esp+10]
:00401007 8B4C2414 mov ecx, dword ptr [esp+14]
:0040100B 8B542418 mov edx, dword ptr [esp+18]
:0040100F 89442400 mov dword ptr [esp], eax
:00401013 8D442410 lea eax, dword ptr [esp+10]
:00401017 894C2404 mov dword ptr [esp+04], ecx

……………………�Q�省略若�q�代码）(j��)

:00401075 83C43C add esp, 0000003C ;恢复堆栈�Q�回收本地变量的内存�I�间
:00401078 C3 ret 000C ;函数�q�回�Q�恢复参数占用的内存�I�间
;如果�?#8220;__cdecl”的话�Q�这里是“ret”�Q�堆栈将��p��用者恢�?nbsp;

;-------------------函数�l�束-------------------------

;--------------�ȝ��序调用func函数的代�?-------------

:00401080 6A03 push 00000003 //压入参数param3
:00401082 6A02 push 00000002 //压入参数param2
:00401084 6A01 push 00000001 //压入参数param1
:00401086 E875FFFFFF call 00401000 //调用func函数
;如果�?#8220;__cdecl”的话�Q�将在这里恢复堆栈，“add esp, 0000000C”

聪明的读者看到这里，差不多就明白�~�冲溢出的原理了(ji��n)。先来看下面的代码：(x��)

#include
#include

void __stdcall func()
{
char lpBuff[8]="\0";
strcat(lpBuff,"AAAAAAAAAAA");
return;
}

int main()
{
func();
return 0;
}

�~�译后执行一下回怎么��P��哈，“"0x00414141"指��o(h��)引用�?0x00000000"内存。该内存?sh��)��能�?read"�?#8221;�Q?#8220;非法操作”喽！"41"��是"A"�?6�q�制的ASCII码了(ji��n)�Q�那明显��是strcat�q�句出的问题?sh��)��(ji��n)�?lpBuff"的大��只�?字节�Q�算�q�结��\0�Q�那strcat最多只能写�?�?A"�Q�但�E�序实际写入�?1�?A"外加1个\0。再来看看上面那�q�图�Q�多出来�?个字节正好覆盖了(ji��n)RET的所在的内存�I�间�Q�导致函数返回到一个错误的内存地址�Q�执行了(ji��n)错误的指令。如果能�_�ֿ�(j��)构造这个字�W�串�Q��它分成三部分�Q�前一部䆾仅仅是填充的无意义数据以辑ֈ�溢出的目的，接着是一个覆盖RET的数据，紧接着是一�D�shellcode�Q�那只要着个RET地址能指向这�D�shellcode的第一个指令，那函数返回时��p��执行shellcode�?ji��n)。但是��Y件的不同版本和不同的�q�行环境都可能媄(ji��ng)响这�D�shellcode在内存�(sh��)��的位�|�，那么要构造这个RET是十分困隄��。一般都在RET和shellcode之间填充大量的NOP指��o(h��)�Q��得exploit有更强的通用性�?nbsp;

├———————┤<—低端内存区�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—由exploit填入数据的开�?nbsp;
�?nbsp;�?nbsp;
�?nbsp;buffer �?lt;—填入无用的数据
�?nbsp;�?nbsp;
├———————┤
�?nbsp;RET �?lt;—指向shellcode�Q�或NOP指��o(h��)的范�?nbsp;
├———————┤
�?nbsp;NOP �?nbsp;
�?nbsp;…… �?lt;—填入的NOP指��o(h��)�Q�是RET可指向的范围
�?nbsp;NOP �?nbsp;
├———————┤
�?nbsp;�?nbsp;
�?nbsp;shellcode �?nbsp;
�?nbsp;�?nbsp;
├———————┤<—由exploit填入数据的结�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—高端内存区�?nbsp;

windows下的动态数据除�?ji��n)可存放在栈中，�q�可以存攑֜�堆中。了(ji��n)解C++的朋友都知道�Q�C++可以使用new关键字来动态分配内存。来看下面的C++代码�Q?nbsp;

#include
#include
#include

void func()
{
char *buffer=new char[128];
char bufflocal[128];
static char buffstatic[128];
printf("0x%08x\n",buffer); //打印堆中变量的内存地址
printf("0x%08x\n",bufflocal); //打印本地变量的内存地址
printf("0x%08x\n",buffstatic); //打印�?r��n)态变量的内存地址
}

void main()
{
func();
return;
}

�E�序执行�l�果为：(x��)

0x004107d0
0x0012ff04
0x004068c0

可以发现用new关键字分配的内存即不在栈中，也不在静(r��n)态数据区。VC�~�译器是通过windows下的“�?heap)”来实现new关键字的内存动态分配。在�?#8220;�?#8221;之前�Q�先来了(ji��n)解一下和“�?#8221;有关的几个API函数�Q?nbsp;

HeapAlloc 在堆中申请内存空�?nbsp;
HeapCreate 创徏一个新的堆对象
HeapDestroy 销毁一个堆对象
HeapFree 释放甌��的内�?nbsp;
HeapWalk 枚�D堆对象的所有内存块
GetProcessHeap 取得�q�程的默认堆对象
GetProcessHeaps 取得�q�程所有的堆对�?nbsp;
LocalAlloc
GlobalAlloc

当进�E�初始化�Ӟ��pȝ��?x��)自动��?f��)�q�程创徏一个默认堆�Q�这个堆默认所占内存的大小�?M。堆对象��q��l�进行管理，它在内存?sh��)��以铑ּ��l�构存在。通过下面的代码可以通过堆动态申请内存空��_(d��)��(x��)

HANDLE hHeap=GetProcessHeap();
char *buff=HeapAlloc(hHeap,0,8);

其中h(hu��n)Heap是堆对象的句柄，buff是指向申��L(f��ng)��内存�I�间的地址。那�q�个hHeap�I�竟是什么呢�Q�它的值有什么意义吗�Q�看看下面这�D�代码吧�Q?nbsp;

#pragma comment(linker,"/entry:main") //定义�E�序的入�?nbsp;
#include

_CRTIMP int (__cdecl *printf)(const char *, ...); //定义STL函数printf
/*---------------------------------------------------------------------------
写到�q�里�Q�我们顺便来复习(f��n)一下前面所讲的知识�Q?nbsp;
(*�?printf函数是C语言的标准函数库中函敎ͼ�VC的标准函数库由msvcrt.dll模块实现�?nbsp;
由函数定义可见，printf的参��C��数是可变的，函数内部无法预先知道调用者压入的参数个数�Q�函数只能通过分析�W�一个参数字�W�串的格式来获得压入参数的信息，�׃��q�里参数的个数是动态的�Q�所以必��ȝ��调用者来�q��堆栈�Q�这里便使用�?ji��n)__cdecl调用规则。BTW�Q�W(xu��)indows�pȝ��的API函数基本上是__stdcall调用形式�Q�只有一个API例外�Q�那��是wsprintf�Q�它使用__cdecl调用规则�Q�同printf函数一��P��q�是�׃��它的参数个数是可变的�~�故�?nbsp;
---------------------------------------------------------------------------*/
void main()
{
HANDLE hHeap=GetProcessHeap();
char *buff=HeapAlloc(hHeap,0,0x10);
char *buff2=HeapAlloc(hHeap,0,0x10);
HMODULE hMsvcrt=LoadLibrary("msvcrt.dll");
printf=(void *)GetProcAddress(hMsvcrt,"printf");
printf("0x%08x\n",hHeap);
printf("0x%08x\n",buff);
printf("0x%08x\n\n",buff2);
}

执行�l�果为：(x��)

0x00130000
0x00133100
0x00133118

hHeap的值怎么和那个buff的值那么接�q�呢�Q�其实hHeap�q�个句柄��是指向HEAP首部的地址。在�q�程的用户区存着一个叫PEB(�q�程环境�?的结构，�q�个�l�构中存攄��一些有兌��E�的重要信息�Q�其中在PEB首地址偏移0x18处存攄��ProcessHeap��是�q�程默认堆的地址�Q�而偏�U?x90处存放了(ji��n)指向�q�程所有堆的地址列表的指针。windows有很多API都��用进�E�的默认堆来存放动态数据，如windows 2000下的所有ANSI版本的函数都是在默认堆中甌��内存来�{换ANSI字符串到Unicode字符串的。对一个堆的访问是��序�q�行的，同一时刻只能有一个线�E�访问堆中的数据�Q�当多个�U�程同时有访问要求时�Q�只能排队等待，�q�样侉K��成�E�序执行效率下降�?nbsp;

最后来说说内存?sh��)��的数据寚w��。所位数据对齐，是指数据所在的内存地址必须是该数据长度的整数倍，DWORD数据的内存�v始地址能被4除尽�Q�W(xu��)ORD数据的内存�v始地址能被2除尽�Q�x86 CPU能直接访问对齐的数据�Q�当他试图访问一个未寚w��的数据时�Q�会(x��)在内部进行一�p�d��的调��_(d��)��q�些调整对于�E�序来说是透明的，但是�?x��)降低运行速度�Q�所以编译器在编译程序时�?x��)尽量保证数据对齐。同样一�D�代码，我们来看看用VC、Dev-C++和lcc三个不同�~�译器编译出来的�E�序的执行结果：(x��)

#include

int main()
{
int a;
char b;
int c;
printf("0x%08x\n",&a);
printf("0x%08x\n",&b);
printf("0x%08x\n",&c);
return 0;
}

�q�是用VC�~�译后的执行�l�果�Q?nbsp;
0x0012ff7c
0x0012ff7b
0x0012ff80
变量在内存�(sh��)��的顺序：(x��)b(1字节)-a(4字节)-c(4字节)�?nbsp;

�q�是用Dev-C++�~�译后的执行�l�果�Q?nbsp;
0x0022ff7c
0x0022ff7b
0x0022ff74
变量在内存�(sh��)��的顺序：(x��)c(4字节)-中间盔R��3字节-b(�?字节)-a(4字节)�?nbsp;

�q�是用lcc�~�译后的执行�l�果�Q?nbsp;
0x0012ff6c
0x0012ff6b
0x0012ff64
变量在内存�(sh��)��的顺序：(x��)同上�?nbsp;

三个�~�译器都做到�?ji��n)数据对齐，但是后两个编译器昄��没VC“聪明”�Q�让一个char占了(ji��n)4字节�Q�浪费内存哦�?nbsp;

基础知识�Q?nbsp;
堆栈是一�U�简单的数据�l�构�Q�是一�U�只允许在其一端进行插入或删除的线性表。允许插入或删除操作的一端称为栈��Ӟ��另一端称为栈底，对堆栈的插入和删除操作被�U�Cؓ(f��)入栈和出栈。有一�l�CPU指��o(h��)可以实现对进�E�的内存实现堆栈讉K��。其中，POP指��o(h��)实现出栈操作�Q�PUSH指��o(h��)实现入栈操作。CPU的ESP寄存器存攑ֽ�前线�E�的栈顶指针�Q�EBP寄存器中保存当前�U�程的栈底指针。CPU的EIP寄存器存放下一个CPU指��o(h��)存放的内存地址�Q�当CPU执行完当前的指��o(h��)后，从EIP寄存器中��d��下一条指令的内存地址�Q�然后��l�执行�?nbsp;

参考：(x��)《Windows下的HEAP溢出�?qi��ng)其利用》by: isno
《windows核心(j��)�~�程》by: Jeffrey Richter

摘要�Q?nbsp;讨论常见的堆性能问题?sh��)��?qi��ng)如何防范它们。（�?nbsp;9 ��）(j��)

前言
�(zh��n)�是否是动态分配的 C/C++ 对象忠实且幸�q�的用户�Q��?zh��n)�是否在模块间的往�q�通信中频�J�地使用�?#8220;自动�?#8221;�Q��?zh��n)�的程序是否因堆分配而运行�v来很慢？不仅仅�?zh��n)�遇到�q�样的问题。几乎所有项目迟早都�?x��)遇到堆问题。大安��惌��Q?#8220;我的代码真正好，只是堆太�?#8221;。那只是部分正确。更深入理解堆及(qi��ng)其用法、以�?qi��ng)�?x��)发生什么问题，是很有用的�?/p>
什么是堆？
�Q�如果�?zh��n)�已经知道什么是堆，可以跛_��“什么是常见的堆性能问题�Q?#8221;部分�Q?/p>
在程序中�Q��用堆来动态分配和释放对象。在下列情况下，调用堆操作：(x��)

事先不知道程序所需对象的数量和大小�?/p>

对象太大而不适合堆栈分配�E�序�?br>堆��用了(ji��n)在运行时分配�l�代码和堆栈的内存�(sh��)��外的部分内存。下囄��Z��(ji��n)堆分配程序的不同层�?br>screen.width-333)this.width=screen.width-333" border=0 dypop="按此在新�H�口��览囄��">

GlobalAlloc/GlobalFree�Q�Microsoft Win32 堆调用，�q�些调用直接与每个进�E�的默认堆进行对话�?/p>
LocalAlloc/LocalFree�Q�Win32 堆调用（��Z��(ji��n)�?nbsp;Microsoft Windows NT 兼容�Q�，�q�些调用直接与每个进�E�的默认堆进行对话�?/p>
COM �?nbsp;IMalloc 分配�E�序�Q�或 CoTaskMemAlloc / CoTaskMemFree�Q�：(x��)函数使用每个�q�程的默认堆。自动化�E�序使用“�l��g对象模型 (COM)”的分配程序，而申��L(f��ng)��E�序使用每个�q�程堆�?/p>
C/C++ �q�行�?nbsp;(CRT) 分配�E�序�Q�提供了(ji��n) malloc() �?nbsp;free() 以及(qi��ng) new �?nbsp;delete 操作�W�。如 Microsoft Visual Basic �?nbsp;Java �{�语�a�也提供了(ji��n)新的操作�W��ƈ使用垃圾攉��来代替堆。CRT 创徏自己的私有堆�Q�驻留在 Win32 堆的�剙��?/p>
Windows NT 中，W(xu��)in32 堆是 Windows NT �q�行时分配程序周围的薄层。所�?nbsp;API 转发它们的请求给 NTDLL�?/p>
Windows NT �q�行时分配程序提�?nbsp;Windows NT 内的核心(j��)堆分配程序。它由具�?nbsp;128 个大��从 8 �?nbsp;1,024 字节的空闲列表的前端分配�E�序�l�成。后端分配程序��用虚拟内存来保留和提交页�?/p>
在图表的底部�?#8220;虚拟内存分配�E�序”�Q�操作系�l��用它来保留和提交��c(di��n)��所有分配程序��用虚拟内存进行数据的存取�?/p>
分配和释攑֝�不就那么��单吗�Q��ؓ(f��)何花费这么长旉��Q?/p>
堆实现的注意事项
传统上，操作�pȝ��和运行时库是与堆的实现共存的。在一个进�E�的开始，操作�pȝ��创徏一个默认堆�Q�叫�?#8220;�q�程�?#8221;。如果没有其他堆可��用，则块的分配��?#8220;�q�程�?#8221;。语�a��q�行时也能在�q�程内创建单独的堆。（例如�Q�C �q�行时创建它自己的堆。）(j��)除这些专用的堆外�Q�应用程序或许多已蝲入的动态链接库 (DLL) 之一可以创徏和��用单独的堆。Win32 提供一整套 API 来创建和使用�U�有堆。有兛_��函数�Q�英文）(j��)的详��指��|��请参�?nbsp;MSDN�?/p>
当应用程序或 DLL 创徏�U�有堆时�Q�这些堆存在于进�E�空��_(d��)��q�且在进�E�内是可讉K��的。从�l�定堆分配的数据��在同一个堆上释放。（不能从一个堆分配而在另一个堆释放。）(j��)

在所有虚拟内存系�l�中�Q�堆�ȝ��在操作系�l�的“虚拟内存��理�?#8221;的顶部。语�a��q�行时堆也驻留在虚拟内存�剙��。某些情况下�Q�这些堆是操作系�l�堆中的层，而语�a��q�行时堆则通过大块的分配来执行自己的内存管理。不使用操作�pȝ��堆，而��用虚拟内存函数更利于堆的分配和块的��用�?/p>
典型的堆实现由前、后端分配程序组成。前端分配程序维持固定大��块的空闲列表。对于一�ơ分配调用，堆尝试从前端列表扑ֈ�一个自由块。如果失败，堆被�q�从后端�Q�保留和提交虚拟内存�Q�分配一个大块来满��h��。通用的实现有每块分配的开销�Q�这��耗费执行周期�Q�也减少�?ji��n)可使用的存储空间�?/p>
Knowledge Base 文章 Q10758�Q?#8220;�?nbsp;calloc() �?nbsp;malloc() ��理内存” �Q�搜索文章编��P��(j��), 包含�?ji��n)有兌��些主题的更多背景知识。另外，有关堆实现和设计的详�l�讨��Z��可在下列著作中找刎ͼ�(x��)“Dynamic Storage Allocation: A Survey and Critical Review”�Q�作�?nbsp;Paul R. Wilson、Mark S. Johnstone、Michael Neely �?nbsp;David Boles�Q?#8220;International Workshop on Memory Management”, 作�?nbsp;Kinross, Scotland, UK, 1995 �q?nbsp;9 �?http://www.cs.utexas.edu/users/oops/papers.html)�Q�英文）(j��)�?/p>
Windows NT 的实玎ͼ�Windows NT 版本 4.0 和更新版本）(j��) 使用�?nbsp;127 个大��从 8 �?nbsp;1,024 字节�?nbsp;8 字节寚w��块空闲列表和一�?#8220;大块”列表�?#8220;大块”列表�Q�空闲列表[0]�Q?nbsp;保存大于 1,024 字节的块。空闲列表容�U�了(ji��n)用双向链表链接在一��L(f��ng)��对象。默认情况下�Q?#8220;�q�程�?#8221;执行攉��操作。（攉��是将盔R��I�闲块合�q�成一个大块的操作。）(j��)攉��耗费�?ji��n)额外的周期�Q�但减少�?ji��n)堆块的内部��片�?/p>
单一全局锁保护堆�Q�防止多�U�程式的使用。（请参�?#8220;Server Performance and Scalability Killers”中的�W�一个注意事��? George Reilly 所著，�?nbsp;“MSDN Online Web Workshop”上（站点�Q?img src="" align=absMiddle border=0>http://msdn.microsoft.com/workshop/server/iis/tencom.asp�Q�英文）(j��)。）(j��)单一全局锁本质上是用来保护堆数据�l�构�Q�防止跨多线�E�的随机存取。若堆操作太频繁�Q�单一全局锁会(x��)�Ҏ(gu��)��能有不利的影响�?/p>
什么是常见的堆性能问题�Q?br>以下是�?zh��n)�使用堆时会(x��)遇到的最常见问题�Q?nbsp;

分配操作造成的速度减慢。光分配��p��费很长旉��。最可能��D��q�行速度减慢原因是空闲列表没有块�Q�所以运行时分配�E�序代码�?x��)耗费周期��L��较大的空闲块�Q�或从后端分配程序分配新块�?/p>

释放操作造成的速度减慢。释放操作耗费较多周期�Q�主要是启用�?ji��n)收集操作。收集期��_(d��)��每个释放操作“查找”它的盔R��块，取出它们�q�构造成较大块，然后再把此较大块插入�I�闲列表。在查找期间�Q�内存可能会(x��)随机��到�Q�从而导致高速缓存�(sh��)��能命中，性能降低�?/p>

堆竞争造成的速度减慢。当两个或多个线�E�同时访问数据，而且一个线�E��l�进行之前必��ȝ��待另一个线�E�完成时��发生竞争。竞争��L��D��ȝ��(ch��)�Q�这也是目前多处理器�pȝ��遇到的最大问题。当大量使用内存块的应用�E�序�?nbsp;DLL 以多�U�程方式�q�行�Q�或�q�行于多处理器系�l�上�Q�时��导致速度减慢。单一锁定的��用—常用的解决�Ҏ(gu��)��—意味着使用堆的所有操作是序列化的。当�{�待锁定时序列化�?x��)引��L(f��ng)��E�切换上下文。可以想象交叉�\口闪烁的�U�灯处走走停停导致的速度减慢�?nbsp;
竞争通常�?x��)导致线�E�和�q�程的上下文切换。上下文切换的开销是很大的�Q�但开销更大的是数据从处理器高速缓存�(sh��)��丢失�Q�以�?qi��ng)后来线�E�复�z�L��的数据重建�?/p>
堆破坏造成的速度减慢。造成堆破坏的原因是应用程序对堆块的不正确使用。通常情�Ş包括释放已释攄��堆块或��用已释放的堆块，以及(qi��ng)块的��界重写�{�明��N��题。（破坏不在本文讨论范围之内。有兛_��存重写和泄漏�{�其他细节，请参�?nbsp;Microsoft Visual C++(R) 调试文档。）(j��)

频繁的分配和重分配造成的速度减慢。这是��用脚本语�a�旉��常普遍的现象。如字符串被反复分配�Q�随重分配增长和释放。不要这样做�Q�如果可能，��量分配大字�W�串和��用缓冲区。另一�U�方法就是尽量少用连接操作�?br>竞争是在分配和释放操作中��D��速度减慢的问题。理��x(ch��ng)��况下�Q�希望��用没有竞争和快速分�?释放的堆。可惜，现在�q�没有这��L(f��ng)��通用堆，也许��来�?x��)有�?/p>
在所有的服务器系�l�中�Q�如 IIS、MSProxy、DatabaseStacks、网�l�服务器�?nbsp;Exchange 和其他）(j��), 堆锁定实在是个大瓉��。处理器数越多，竞争��p��?x��)恶化�?/p>
��量减少堆的使用
现在�(zh��n)�明白��用堆时存在的问题?sh��)��(ji��n)，��N��(zh��n)�不��x(ch��ng)��有能解决�q�些问题的超�U�魔��吗�Q�我可希望有。但没有��法能��堆运行加快—因此不要期望在产品�?gu��)��之前的最后一星期能够大�ؓ(f��)改观。如果提前规划堆�{�略�Q�情况将�?x��)大大好转。调整��用堆的方法，减少对堆的操作是提高性能的良斏V�?/p>
如何减少使用堆操作？通过利用数据�l�构内的位置可减��堆操作的次数。请考虑下列实例�Q?/p>
struct ObjectA {
   // objectA 的数�?nbsp;
}

struct ObjectB {
   // objectB 的数�?nbsp;
}

// 同时使用 objectA �?nbsp;objectB

//
// 使用指针
//
struct ObjectB {
   struct ObjectA * pObjA;
   // objectB 的数�?nbsp;
}

//
// 使用嵌入
//
struct ObjectB {
   struct ObjectA pObjA;
   // objectB 的数�?nbsp;
}

//
// 集合 – 在另一对象内��?nbsp;objectA �?nbsp;objectB
//

struct ObjectX {
   struct ObjectA  objA;
   struct ObjectB  objB;
}

避免使用指针兌��两个数据�l�构。如果��用指针关联两个数据结构，前面实例中的对象 A �?nbsp;B ��被分别分配和释放。这�?x��)增加额外开销—我们要避免�q�种做法�?/p>

把带指针的子对象嵌入父对象。当对象中有指针�Ӟ��则意味着对象中有动态元素（癑ֈ�之八十）(j��)和没有引用的��C��|�。嵌入增加了(ji��n)位置从而减��了(ji��n)�q�一步分�?释放的需求。这��提高应用程序的性能�?/p>

合�ƈ��对象�Ş成大对象�Q�聚合）(j��)。聚合减��分配和释放的块的数量。如果有几个开发者，各自开发设计的不同部分�Q�则最�l�会(x��)有许多小对象需要合�q�。集成的挑战��是要找到正��的聚合边界�?/p>

内联�~�冲��够满��百分之八十的需要（aka 80-20 规则�Q�。个别情况下�Q�需要内存缓冲区来保存字�W�串/二进制数据，但事先不知道��d��节数。估计�ƈ内联一个大��能满��癑ֈ�之八十需要的�~�冲区。对剩余的百分之二十�Q�可以分配一个新的缓冲区和指向这个缓冲区的指针。这��P��减��分配和释放调用�q�增加数据的位置�I�间�Q�从�Ҏ(gu��)��上提高�(sh��)��码的性能�?/p>

在块中分配对象（块化�Q�。块化是以组的方式一�ơ分配多个对象的�Ҏ(gu��)��。如果对列表的项�q�箋跟踪�Q�例如对一�?nbsp;{名称�Q�值} 对的列表�Q�有两种选择�Q�选择一是�ؓ(f��)每一�?#8220;名称-�?#8221;对分配一个节点；选择二是分配一个能容纳�Q�如五个�Q?#8220;名称-�?#8221;对的�l�构。例如，一般情况下�Q�如果存储四对，��可减少节点的数量，如果需要额外的�I�间数量�Q�则使用附加的链表指针�?nbsp;
块化是友好的处理器高速缓存，特别是对�?nbsp;L1-高速缓存，因�ؓ(f��)它提供了(ji��n)增加的位�|?nbsp;—不用说对于块分配，很多数据块会(x��)在同一个虚拟页中�?/p>
正确使用 _amblksiz。C �q�行�?nbsp;(CRT) 有它的自定义前端分配�E�序�Q�该分配�E�序从后端（Win32 堆）(j��)分配大小�?nbsp;_amblksiz 的块。将 _amblksiz 讄��高的��D��潜在地减��对后端的调用次数。这只对�q�泛使用 CRT 的程序适用�?br>使用上述技术将获得的好处会(x��)因对象类型、大��及(qi��ng)工作量而有所不同。但总能在性能和可升羃性方面有所收获。另一斚w��Q�代码会(x��)有点�Ҏ(gu��)��Q�但如果�l�过深思熟虑，代码�q�是很容易管理的�?/p>
其他提高性能的技�?br>下面是一些提高速度的技术：(x��)

使用 Windows NT5 �?nbsp;
�׃��几个同事的努力和辛勤工作�Q?998 �q�初 Microsoft Windows(R) 2000 中有�?ji��n)几个重大改�q�：(x��)

改进�?ji��n)堆代码内的锁定。堆代码�Ҏ(gu��)��堆一个锁。全局锁保护堆数据�l�构�Q�防止多�U�程式的使用。但不幸的是�Q�在高通信量的情况下，堆仍受困于全局锁，��D��高竞争和低性能。Windows 2000 中，锁内代码的��(f��)界区��竞争的可能性减到最��?从而提高�(sh��)��(ji��n)可�׾~�性�?/p>

使用 “Lookaside”列表。堆数据�l�构对块的所有空闲项使用�?ji��n)大��?nbsp;8 �?nbsp;1,024 字节�Q�以 8-字节递增�Q�的快速高速缓存。快速高速缓存最初保护在全局锁内。现在，使用 lookaside 列表来访问这些快速高速缓存空闲列表。这些列表不要求锁定�Q�而是使用 64 位的互锁操作�Q�因此提高�(sh��)��(ji��n)性能�?/p>

内部数据�l�构��法也得到改�q��?br>�q�些改进避免�?ji��n)对分配高速缓存的需求，但不排除其他的优化。��?nbsp;Windows NT5 堆评估�?zh��n)�的代码；它对��?nbsp;1,024 字节 (1 KB) 的块�Q�来自前端分配程序的块）(j��)是最佳的。GlobalAlloc() �?nbsp;LocalAlloc() 建立在同一堆上�Q�是存取每个�q�程堆的通用机制。如果希望获得高的局部性能�Q�则使用 Heap(R) API 来存取每个进�E�堆�Q�或为分配操作创��q��堆。如果需要对大块操作�Q�也可以直接使用 VirtualAlloc() / VirtualFree() 操作�?/p>
上述改进已在 Windows 2000 beta 2 �?nbsp;Windows NT 4.0 SP4 中��用。改�q�后�Q�堆锁的竞争率显著降低。这使所�?nbsp;Win32 堆的直接用户受益。CRT 堆徏立于 Win32 堆的�剙��Q�但它��用自��q��块堆，因而不能从 Windows NT 改进中受益。（Visual C++ 版本 6.0 也有改进的堆分配�E�序。）(j��)

使用分配高速缓�?nbsp;
分配高速缓存允�?d��ng)R��速缓存分配的块，以便��来重用。这能够减少对进�E�堆�Q�或全局堆）(j��)的分�?释放调用的次敎ͼ�也允许最大限度的重用曄��分配的块。另外，分配高速缓存允许收集统计信�?以便较好地理解对象在较高层次上的使用�?/p>
典型圎ͼ�自定义堆分配�E�序在进�E�堆的顶部实现。自定义堆分配程序与�pȝ��堆的行�ؓ(f��)很相伹{��主要的差别是它在进�E�堆的顶部�ؓ(f��)分配的对象提供高速缓存。高速缓存设计成一套固定大��（�?nbsp;32 字节�?4 字节�?28 字节�{�）(j��)。这一个很好的�{�略�Q�但�q�种自定义堆分配�E�序丢失与分配和释放的对象相关的“语义信息”�?nbsp;

与自定义堆分配程序相反，“分配高速缓�?#8221;作�ؓ(f��)每类分配高速缓存来实现。除能够提供自定义堆分配�E�序的所有好处之外，它们�q�能够保留大量语义信息。每个分配高速缓存处理程序与一个目标二�q�制对象兌��。它能够使用一套参数进行初始化�Q�这些参数表�C��ƈ发��别、对象大��和保持在空闲列表中的元素的数量�{�。分配高速缓存处理程序对象维持自��q��U�有�I�闲实体池（不超�q�指定的阀��|��(j��)�q��用私有保护锁。合在一��P��分配高速缓存和�U�有锁减��了(ji��n)与主�pȝ��堆的通信量，因而提供了(ji��n)增加的�ƈ发、最大限度的重用和较高的可�׾~�性�?/p>
需要��用清理程序来定期��(g��)查所有分配高速缓存处理程序的�z�d��情况�q�回收未用的资源。如果发现没有活动，��释攑ֈ�配对象的池，从而提高性能�?/p>
可以审核每个分配/释放�z�d��。第一�U�信息包括对象、分配和释放调用的��L��。通过查看它们的统计信息可以得出各个对象之间的语义关系。利用以上介�l�的许多技术之一�Q�这�U�关�p�d��以用来减��内存分配�?/p>
分配高速缓存�(sh��)��起到�?ji��n)调试助手的作用�Q�帮助�?zh��n)�跟踪没有完全清除的对象数量。通过查看动态堆栈返回踪�q�和除没有清除的对象之外的签名，甚至能够扑ֈ��切的失败的调用者�?/p>
MP �?nbsp;
MP 堆是对多处理器友好的分布式分配的�E�序包，�?nbsp;Win32 SDK�Q�Windows NT 4.0 和更新版本）(j��)中可以得到。最初由 JVert 实现�Q�此处堆抽象建立�?nbsp;Win32 堆程序包的顶部。MP 堆创建多�?nbsp;Win32 堆，�q�试囑ְ�分配调用分布��C��同堆�Q�以减少在所有单一锁上的竞争�?/p>
本程序包是好的步�?nbsp;—一�U�改�q�的 MP-友好的自定义堆分配程序。但是，它不提供语义信息和缺乏统计功能。通常��?nbsp;MP 堆作�?nbsp;SDK 库来使用。如果��用这�?nbsp;SDK 创徏可重用组�Ӟ��(zh��n)�将大大受益。但是，如果在每�?nbsp;DLL 中徏立这�?nbsp;SDK 库，��增加工作设�|��?/p>
重新思考算法和数据�l�构
要在多处理器机器上�׾~�，则算法、实现、数据结构和��g必须动态�׾~�。请看最�l�常分配和释攄��数据�l�构。试问，“我能用不同的数据�l�构完成此工作吗�Q?#8221;例如�Q�如果在应用�E�序初始化时加蝲�?ji��n)只读项的列表，�q�个列表不必是线性链接的列表。如果是动态分配的数组��非常好。动态分配的数组��减��内存�(sh��)��的堆块和��片�Q�从而增强性能�?/p>
减少需要的��对象的数量减少堆分配程序的负蝲。例如，我们在服务器的关键处理�\径上使用五个不同的对象，每个对象单独分配和释放。一起高速缓存这些对象，把堆调用从五个减��到一个，显著减少�?ji��n)堆的负载，特别当每�U�钟处理 1,000 个以上的��h��时�?/p>
如果大量使用“Automation”�l�构�Q�请考虑从主�U�代码中删除“Automation BSTR”�Q�或臛_��避免重复�?nbsp;BSTR 操作。（BSTR �q�接��D��q�多的重分配和分�?释放操作。）(j��)

摘要
�Ҏ(gu��)��有��^台往往都存在堆实现�Q�因此有巨大的开销。每个单独代码都有特定的要求�Q�但设计能采用本文讨论的基本理论来减��堆之间的相互作用�?nbsp;

评�h(hu��n)�(zh��n)�的代码中堆的��用�?/p>

改进�(zh��n)�的代码�Q�以使用较少的堆调用�Q�分析关键�\径和固定数据�l�构�?/p>

在实现自定义的包装程序之前��用量化堆调用成本的方法�?/p>

如果�Ҏ(gu��)��能不满意，误��?nbsp;OS �l�改�q�堆。更多这�c�请求意味着�Ҏ(gu��)��q�堆的更多关注�?/p>

要求 C �q�行时组针对 OS 所提供的堆制作��y的分配包装程序。随着 OS 堆的改进�Q�C �q�行时堆调用的成本将减小�?/p>

操作�pȝ��Q�Windows NT 家族�Q�正在不断改�q�堆。请随时��x(ch��ng)��和利用这些改�q��?br>Murali Krishnan �?nbsp;Internet Information Server (IIS) �l�的首席软�g设计工程师。从 1.0 版本开始他��p��?nbsp;IIS�Q��ƈ成功发行�?nbsp;1.0 版本�?nbsp;4.0 版本。Murali �l�织�q��?nbsp;IIS 性能�l�三�q?nbsp;(1995-1998), 从一开始就影响 IIS 性能。他拥有威斯��h��?nbsp;Madison 大学�?nbsp;M.S.和印�?nbsp;Anna 大学�?nbsp;B.S.。工作之外，他喜�Ƣ阅诅R��打排球和家庭烹饪�?br>

http://community.csdn.net/Expert/FAQ/FAQ_Index.asp?id=172835
我在学习(f��n)对象的生存方式的时候见��C��U�是在堆�?stack)之中�Q�如�?nbsp;
CObject  object;
�q�有一�U�是在堆(heap)�?nbsp; 如下
CObject*  pobject=new  CObject();

请问
�Q?�Q�这两种方式有什么区别？
�Q?�Q�堆栈与堆有什么区别？�Q?nbsp;

---------------------------------------------------------------

1)  about  stack,  system  will  allocate  memory  to  the  instance  of  object  automatically,  and  to  the
heap,  you  must  allocate  memory  to  the  instance  of  object  with  new  or  malloc  manually.
2)  when  function  ends,  system  will  automatically  free  the  memory  area  of  stack,  but  to  the
heap,  you  must  free  the  memory  area  manually  with  free  or  delete,  else  it  will  result  in  memory
leak.
3)栈内存分配运��内�|�于处理器的指��o(h��)集中�Q�效率很高，但是分配的内存容量有限�?nbsp;
4�Q�堆上分配的内存可以有我们自己决定，使用非常灉|��?nbsp;
---------------------------------------------------------------

沙漠里的�� 2009-05-19 16:53 发表评论

详解函数调用�U�定

沙漠里的�� — Fri, 15 May 2009 09:30:00 GMT

在编写windows�E�序�Ӟ��我们�l�常发现一些函数的前面带有WINAPI�{�的关键�?不知道这��h��q�是否准��，��h��白的读者联�p�L��人更�?img height=20 src="http://m.shnenglu.com/Emoticons/QQ/13.gif" width=20 border=0>)�Q�如windows的消息响应函数定义如下：(x��)

1 LRESULT CALLBACK WndProc (HWND, UINT, WPARAM, LPARAM) ;

�q�里的LRESULT在windows中被定义为long型，而CALLBACK则被定义成了(ji��n)__stacall�Q�仔�l�看�?ji��n)一下，在WINDEF.H中还包含如下定义�Q?br>
1#define CALLBACK    __stdcall
2#define WINAPI      __stdcall
3#define WINAPIV     __cdecl
4#define APIENTRY    WINAPI
5#define APIPRIVATE  __stdcall
6#define PASCAL      __stdcall

那么�Q�这里的__stacall、__cdecl到底是什么意思呢�Q�又有什么作用呢�Q�我�l�过查找相关资料对其有了(ji��n)些许��显的了(ji��n)解，�q�里与大家一起分享�?br>
我们知道�Q�在C语言中假设我们有�q�样一个函数定义：(x��)

int function_add(int a, int b);
那么只要�?br>
1int x = 3, y = 5;
2int result = function_add(x, y);
�q�样的方式就可以对函数进行调用了(ji��n)。但是，在计��机中，当高�U�语�a��E�序被编译成计算机可以识别的机器码时�Q�有一个问题就凸现出来�Q�在CPU中，计算机没有办法知道一个函数调用需要多��个参数、这些参数是什么样的，也没有硬件可以保存这些参数。也��是��_(d��)��计算机�ƈ不知道应该怎么�l�这个函��C��递参敎ͼ�传递参数的工作必须由函数调用者和函数本��n来协调。�ؓ(f��)此，计算机提供了(ji��n)一�U�被�U�Cؓ(f��)栈的数据�l�构来支持函数的参数传递�?br>
栈是一�U�先�q�后出的数据�l�构�Q�栈有一个存储区、一个栈��指针。栈��指针指向堆栈中�W�一个可用的数据��?被称为栈��?。用户可以在栈顶的上方向堆栈中加入数据，�q�个操作被称为压�?Push)�Q�压栈以后，栈顶自动变成新加入数据项的位�|�，栈顶指针也随之修攏V��用户也可以从堆栈中取出栈顶元素�Q�这个操作被�U�Cؓ(f��)弹出�?pop)�Q�弹出栈以后�Q�栈��的下一个元素变成栈��Ӟ��栈顶指针随之修改�?br>
函数调用�Ӟ��调用者依�ơ把参数压栈�Q�然后调用函敎ͼ�函数被调用以后，在堆栈中取出数据�Q��ƈ�q�行计算。函数计��结束以后，或者调用者、或者函数本�w�修改堆栈，使堆栈恢复原状。问题的关键��在�q�里�Q�到底应该如何清除栈呢？

函数调用需要进行参��C��递，在参��C��递过�E�中有两个很重要的问题必��d��到明��说明：(x��)
    1. 当参��C��数多于一个时�Q�按照什么样的顺序把参数压入栈中
    2. 函数调用后，��p��来负责把堆栈恢复原状

在高�U�语�a�中，函数调用�U�定��是用来说明�q�两个问题的。常见的函数调用�U�定有：(x��)
        stdcall
        cdecl
        fastcall
        thiscall
        naked call

下面一一�q�行介绍�?br>
一、stdcall调用�U�定

stdcall�Q�也可写作__stdcall�Q�很多时候被�U�Cؓ(f��)pascal调用�U�定�Q�因为pascal是早期很常见的一�U�教学用计算机程序设计语�a��Q�其语法严�}�Q��用的函数调用�U�定��是stdcall。几乎我们写的每一个WINDOWS API函数都是__stdcall�c�d��的。在Microsoft C++�p�d��的C/C++�~�译器中�Q�常常用PASCAL宏来声明�q�个调用�U�定�Q�类似的宏还有WINAPI和CALLBACK(如文章开头引用的在WINDEF.H头文件中的定�?�?br>
stdcall调用�U�定声明的语法�ؓ(f��)�Q�以前面的function_add函数��Z��Q�：(x��)

int __stdcall function_add(int a,int b);

stdcall调用�U�定意味着�Q?br>(1) 参数从右向左压入堆栈
(2) 函数自��n修改堆栈
(3) 函数名自动加前导的下划线�Q�后面紧跟一个@�W�号�Q�其后紧跟着参数的大��?br>
以上�q�这个函��Cؓ(f��)例，参数b首先被压栈，然后是参数a�Q�函数调用function_add(1, 2)调用处翻译成汇编语言��变成：(x��)

      push       2                     // �W�二个参数入�?br>      push       1                      // �W�一个参数入�?br>      call         function_add    // 调用参数�Q�注意此时自动把cs:eip入栈

而对于函数自�w�，则可��译为：(x��)
      push       ebp　　　　　　   // 保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
      mov　   ebp, esp　　　　    // 保存堆栈指针
      mov　   eax,[ebp + 8H]　     // 堆栈中ebp指向位置之前依次保存有ebp, cs:eip, a, b, ebp +8指向a
      add　    eax,[ebp + 0CH]      // 堆栈中ebp + 12处保存�(sh��)��(ji��n)b
      mov　   esp, ebp　　　　   // 恢复esp
      pop　    ebp
      ret　      8

而在�~�译�Ӟ��q�个函数的名字被��译�?a href="mailto:_function@8">_function@8
　　注意不同�~�译器会(x��)插入自己的汇�~�代码以提供�~�译的通用性，但是大体代码如此。其中在函数开始处保留esp到ebp中，在函数结束恢复是�~�译器常用的�Ҏ(gu��)��?/p>
　　从函数调用看�Q?�?依次被push�q�堆栈，而在函数中又通过相对于ebp(卛_��q�函数时的堆栈指针）(j��)的偏�U�量存取参数。函数结束后�Q�ret 8表示清理8个字节的堆栈�Q�函数自己恢复了(ji��n)堆栈�?br>
�׃��不同的编译器产生栈的方式不尽相同�Q�调用者就不一定能够正常的完成堆栈的清除工作，但函数本�w�自己可以解��x(ch��ng)��除工作，所以，在跨�q�_��的程序开发中的函数调用，我们通常都��用__stdcall�U�定�Q�windows下的�l�大多数函数也都是stdcall调用。既然如此，��Z��么还需要__cdecl呢？别着急，接着往下看�?br>
二、cdecl调用�U�定

cdecl�Q�也可写作__cdecl�Q�又�U�Cؓ(f��)C调用�U�定�Q�是C/C++语言和MFC�E�序默认�~�省的调用约定，它的定义语法是：(x��)

    int function (int a ,int b)　        //不加修饰��是C调用�U�定
     int __cdecl function(int a,int b)  //明确指出C调用�U�定

采用__cdecl�U�定�Ӟ��函数参数按照从右到左的顺序入栈，�q�且��p��用函数者把参数弹出栈以清理堆栈。因此，实现可变参数的函数只能��用该调用�U�定。由于这�U�变化，C调用�U�定允许函数的参数的个数是不固定的，�q�也是C语言的一大特艌Ӏ�同�Ӟ��׃��每一个��用__cdecl�U�定的函数都要包含清理堆栈的代码�Q�所以��生的可执行文件大��会(x��)比较大。__cdecl可以写成_cdecl�?

对于前面的function函数�Q��用cdecl后的汇编码变成：(x��)

调用�?br>　　push   1
　　push   2
　　call     function
　　add　esp, 8　　　　　 // 注意�Q�这里调用者在恢复堆栈

　　被调用函数_function�?br>　　push    ebp　　　　　　// 保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov    ebp,esp　　　　 // 保存堆栈指针
　　mov　eax,[ebp + 8H]　 // 堆栈中ebp指向位置之前依次保存有ebp,cs:eip,a,b,ebp +8指向a
　　add　eax,[ebp + 0CH]    // 堆栈中ebp + 12处保存�(sh��)��(ji��n)b
　　mov　esp,ebp　　　　 // 恢复esp
　　pop　ebp
　　ret　　　　　　　　　// 注意�Q�这里没有修改堆�?/p>

不写�?ji��n)，累得慌，呵�?转蝲两篇文章�?br>

__stdcall,__cdecl,_cdecl,_stdcall,。__fastcall,_fastcall 区别��?nbsp;

1.

今天写线�E�函数时�Q�发现msdn中对ThreadProc的定义有要求�Q�DWORD WINAPI ThreadProc(LPVOID lpParameter);

不解��Z��么要用WINAPI宏定义，查了(ji��n)后发��C��面的定义。于是乎需要区别__stdcall和__cdecl两者的区别�Q?#define CALLBACK __stdcall
#define WINAPI __stdcall
#define WINAPIV __cdecl
#define APIENTRY WINAPI
#define APIPRIVATE __stdcall
#define PASCAL __stdcall
#define cdecl _cdecl
#ifndef CDECL
#define CDECL _cdecl
#endif

几乎我们写的每一个WINDOWS API函数都是__stdcall�c�d��的，首先�Q�需要了(ji��n)解两者之间的区别�Q?WINDOWS的函数调用时需要用到栈�Q�STACK�Q�一�U�先入后出的存储�l�构�Q�。当函数调用完成后，栈需要清楚，�q�里��是问题的关键，如何清除�Q�？如果我们的函��C��用了(ji��n)_cdecl�Q�那么栈的清除工作是��p��用者，用COM的术语来讲就是客��h��完成的。这样带来了(ji��n)一个棘手的问题�Q�不同的�~�译器��生栈的方式不��相同，那么调用者能否正常的完成清除工作呢？�{�案是不能�?如果使用__stdcall�Q�上面的问题��p��决了(ji��n)�Q�函数自��p��x(ch��ng)��除工作。所以，在跨�Q�开发）(j��)�q�_��的调用中�Q�我们都使用__stdcall�Q�虽然有时是以WINAPI的样子出玎ͼ�(j��)。那么�ؓ(f��)什么还需要_cdecl呢？当我们遇到这��L(f��ng)��函数如fprintf()它的参数是可变的�Q�不定长的，被调用者事先无法知道参数的长度�Q�事后的清除工作也无法正常的�q�行�Q�因此，�q�种情况我们只能使用_cdecl。到�q�里我们有一个结论，如果你的�E�序中没有涉�?qi��ng)可变参敎ͼ�最好��用__stdcall关键字�?/p>
2.

__cdecl,__stdcall是声明的函数调用协议.主要是传参和�Ҏ(gu��)��斚w��的不�?一般c++用的是__cdecl,windows里大都用的是__stdcall(API)

__cdecl是C/C++和MFC�E�序默认使用的调用约定，也可以在函数声明时加上__cdecl关键字来手工指定。采用__cdecl�U�定�Ӟ��函数参数按照从右到左的顺序入栈，�q�且��p��用函数者把参数弹出栈以清理堆栈。因此，实现可变参数的函数只能��用该调用�U�定。由于每一个��用__cdecl�U�定的函数都要包含清理堆栈的代码�Q�所以��生的可执行文件大��会(x��)比较大。__cdecl可以写成_cdecl�?
__stdcall调用�U�定用于调用Win32 API函数。采用__stdcall�U�定�Ӟ��函数参数按照从右到左的顺序入栈，被调用的函数在返回前清理传送参数的栈，函数参数个数固定。由于函��C��本��n知道传进来的参数个数�Q�因此被调用的函数可以在�q�回前用一条ret n指��o(h��)直接清理传递参数的堆栈。__stdcall可以写成_stdcall�?
__fastcall�U�定用于�Ҏ(gu��)��能要求非常高的场合。__fastcall�U�定��函数的从左边开始的两个大小不大�?个字节（DWORD�Q�的参数分别攑֜�ECX和EDX寄存器，其余的参��C��旧自叛_��左压栈传送，被调用的函数在返回前清理传送参数的堆栈。__fastcall可以写成_fastcall

3.

__stdcall:

_stdcall 调用�U�定相当�?6位动态库中经�怋�用的PASCAL调用�U�定�?/p>

�?2位的VC++5.0中PASCAL调用�U�定不再被支持（实际上它已被定义为__stdcall。除�?ji��n)__pascal外，__fortran和__syscall也不被支持）(j��)�Q�取而代之的是__stdcall调用�U�定。两者实质上是一致的�Q�即函数的参数自叛_��左通过栈传递，被调用的函数在返回前清理传送参数的内存栈，但不同的是函数名的修饰部分（关于函数名的修饰部分在后面将详细说明�Q��?/p>
_stdcall是Pascal�E�序的缺省调用方式，通常用于Win32 Api中，函数采用从右到左的压栈方式，自己在退出时清空堆栈。VC��函数编译后�?x��)在函数名前面加上下划线前缀�Q�在函数名后加上"@"和参数的字节数�?/p>
_cdecl:

_cdecl c调用�U�定, 按从双��左的��序压参数入栈，��p��用者把参数弹出栈。对于传送参数的内存栈是��p��用者来�l�护的（正因为如此，实现可变参数的函数只能��用该调用�U�定�Q�。另外，在函数名修饰�U�定斚w��也有所不同�?/p>
_cdecl是C和C�Q�＋�E�序的缺省调用方式。每一个调用它的函数都包含清空堆栈的代码，所以��生的可执行文件大��会(x��)比调用_stdcall函数的大。函数采用从叛_��左的压栈方式。VC��函数编译后�?x��)在函数名前面加上下划线前缀。是MFC�~�省调用�U�定�?/p>
__fastcall:

__fastcall调用�U�定�?�?如其名，它的主要特点��是快，因�ؓ(f��)它是通过寄存器来传送参数的�Q�实际上�Q�它用ECX和EDX传送前两个双字�Q�DWORD�Q�或更小的参敎ͼ�剩下的参��C��旧自叛_��左压栈传送，被调用的函数在返回前清理传送参数的内存栈）(j��)�Q�在函数名修饰约定方面，它和前两者均不同�?/p>
_fastcall方式的函数采用寄存器传递参敎ͼ�VC��函数编译后�?x��)在函数名前面加�?@"前缀�Q�在函数名后加上"@"和参数的字节数�?/p>
thiscall:

thiscall仅仅应用�?C++"成员函数。this指针存放于CX寄存器，参数从右到左压。thiscall不是关键词，因此不能被程序员指定�?/p>
naked call:

采用1-4的调用约定时�Q�如果必要的话，�q�入函数时编译器�?x��)��生代码来保存ESI�Q�EDI�Q�EBX�Q�EBP寄存器，退出函数时则��生代码恢复这些寄存器的内宏V�?/p>
naked call不��生这��L(f��ng)��代码。naked call不是�c�d��修饰�W�，故必��d��_declspec共同使用�?/p>
另附:

关键�?__stdcall、__cdecl和__fastcall可以直接加在要输出的函数前，也可以在�~�译环境的Setting...\C/C++ \Code Generation��w��择。当加在输出函数前的关键字与�~�译环境中的选择不同�Ӟ��直接加在输出函数前的关键字有效。它们对应的命��o(h��)行参数分别�ؓ(f��)/Gz�?Gd�?Gr。缺省状态�ؓ(f��)/Gd�Q�即__cdecl�?/p>
要完全模仿PASCAL调用�U�定首先必须使用__stdcall调用�U�定�Q�至于函数名修饰�U�定�Q�可以通过其它�Ҏ(gu��)��模仿。还有一个值得一提的是WINAPI宏，W(xu��)indows.h支持该宏�Q�它可以��出函数��译成适当的调用约定，在WIN32中，它被定义为__stdcall。��用WINAPI宏可以创��q��APIs�?/p>
名字修饰�U�定

1、修饰名(Decoration name)
“C”或�?#8220;C++”函数在内部（�~�译和链接）(j��)通过修饰名识别。修饰名是编译器在编译函数定义或者原型时生成的字�W�串。有些情况下使用函数的修饰名是必要的�Q�如在模块定义文仉��头指定输�?#8220;C++”重蝲函数、构造函数、析构函敎ͼ�又如在汇�~�代码里调用“C””�?#8220;C++”函数�{��?

修饰名由函数名、类名、调用约定、返回类型、参数等共同军_��?

2、名字修饰约定随调用�U�定和编译种�c?C或C++)的不同而变化。函数名修饰�U�定随编译种�c�d��调用�U�定的不同而不同，下面分别说明�?

a、C�~�译时函数名修饰�U�定规则�Q?

__stdcall调用�U�定在输出函数名前加上一个下划线前缀�Q�后面加上一�?#8220;@”�W�号和其参数的字节数�Q�格式�ؓ(f��)_functionname@number�?

__cdecl调用�U�定仅在输出函数名前加上一个下划线前缀�Q�格式�ؓ(f��)_functionname�?/p>
__fastcall调用�U�定在输出函数名前加上一�?#8220;@”�W�号�Q�后面也是一�?#8220;@”�W�号和其参数的字节数�Q�格式�ؓ(f��)@functionname@number�?

它们均不改变输出函数名中的字�W�大��写�Q�这和PASCAL调用�U�定不同�Q�PASCAL�U�定输出的函数名无�Q何修��C��全部大写�?

b、C++�~�译时函数名修饰�U�定规则�Q?

__stdcall调用�U�定�Q?
1、以“?”标识函数名的开始，后跟函数名；
2、函数名后面�?#8220;@@YG”标识参数表的开始，后跟参数表；
3、参数表以代可��C�：(x��)
X--void �Q?
D--char�Q?
E--unsigned char�Q?
F--short�Q?
H--int�Q?
I--unsigned int�Q?
J--long�Q?
K--unsigned long�Q?
M--float�Q?
N--double�Q?
_N--bool�Q?
....
PA--表示指针�Q�后面的代号表明指针�c�d��Q�如果相同类型的指针�q�箋出现�Q�以“0”代替�Q�一�?#8220;0”代表一�ơ重复；
4、参数表的第一��ؓ(f��)该函数的�q�回值类型，其后依次为参数的数据�c�d��,指针标识在其所指数据类型前�Q?
5、参数表后以“@Z”标识整个名字的结束，如果该函数无参数�Q�则�?#8220;Z”标识�l�束�?

其格式�ؓ(f��)“?functionname@@YG*****@Z”�?#8220;?functionname@@YG*XZ”�Q�例�?
int Test1�Q�char *var1,unsigned long�Q?----“?Test1@@YGHPADK@Z”
void Test2�Q�）(j��) -----“?Test2@@YGXXZ”

__cdecl调用�U�定�Q?
规则同上面的_stdcall调用�U�定�Q�只是参数表的开始标识由上面�?#8220;@@YG”变�(sh��)ؓ(f��)“@@YA”�?

__fastcall调用�U�定�Q?
规则同上面的_stdcall调用�U�定�Q�只是参数表的开始标识由上面�?#8220;@@YG”变�(sh��)ؓ(f��)“@@YI”�?
VC++对函数的省缺声明�?#8220;__cedcl“,��只能被C/C++调用.

CB在输出函数声明时使用4�U�修饰符�?
//__cdecl
cb的默认��|��它会(x��)在输出函数名前加_�Q��ƈ保留此函数名不变�Q�参数按照从叛_��左的��序依次传递给栈，也可以写成_cdecl和cdecl形式�?
//__fastcall
她修饰的函数的参数将��肯呢感��C��用寄存器来处理，其函数名前加@�Q�参数按照从左到右的��序压栈�Q?
//__pascal
它说明的函数名��用Pascal格式的命名约定。这时函数名全部大写。参数按照从左到右的��序压栈�Q?
//__stdcall
使用标准�U�定的函数名。函数名不会(x��)改变。��用__stdcall修饰时。参数按照由叛_��左的��序压栈�Q�也可以是_stdcall�Q?/p>
VC++对函数的省缺声明�?__cedcl",��只能被C/C++调用.

注意�Q?/p>
1、_beginthread需要__cdecl的线�E�函数地址�Q�_beginthreadex和CreateThread需要__stdcall的线�E�函数地址�?/p>
2、一般WIN32的函数都是__stdcall。而且在Windef.h中有如下的定义：(x��)

#define CALLBACK __stdcall

#define WINAPI　 __stdcall

3、extern "C" _declspec(dllexport) int __cdecl Add(int a, int b);

   typedef int (__cdecl*FunPointer)(int a, int b);

   修饰�W�的书写��序如上�?/p>
4、extern "C"的作用：(x��)如果Add(int a, int b)是在c语言�~�译器编译，而在c++文�g使用�Q�则需要在c++文�g中声明：(x��)extern "C" Add(int a, int b)�Q�因为c�~�译器和c++�~�译器对函数名的解释不一��P��c++�~�译器解释函数名的时候要考虑函数参数�Q�这��h��?ji��n)方便函数重载，而在c语言中不存在函数重蝲的问题）(j��)�Q��用extern "C"�Q�实质就是告诉c++�~�译器，该函数是c库里面的函数。如果不使用extern "C"则会(x��)出现链接错误�?/p>
一般象如下使用�Q?/p>
#ifdef _cplusplus

#define EXTERN_C extern "C"

#else

#define EXTERN_C extern

#endif

#ifdef _cplusplus

extern "C"{

#endif

EXTERN_C int func(int a, int b);

#ifdef _cplusplus

}

#endif

5、MFC提供�?ji��n)一些宏�Q�可以��用AFX_EXT_CLASS来代替__declspec(DLLexport)�Q��ƈ修饰�c�d��Q�从而导出类�Q�AFX_API_EXPORT来修饰函敎ͼ�AFX_DATA_EXPORT来修饰变�?/p>
AFX_CLASS_IMPORT�Q�__declspec(DLLexport)

AFX_API_IMPORT�Q�__declspec(DLLexport)

AFX_DATA_IMPORT�Q�__declspec(DLLexport)

AFX_CLASS_EXPORT�Q�__declspec(DLLexport)

AFX_API_EXPORT�Q�__declspec(DLLexport)

AFX_DATA_EXPORT�Q�__declspec(DLLexport)

AFX_EXT_CLASS�Q?ifdef _AFXEXT

   AFX_CLASS_EXPORT

        #else

   AFX_CLASS_IMPORT

6、DLLMain负责初始�?Initialization)和结�?Termination)工作�Q�每当一个新的进�E�或者该�q�程的新的线�E�访问DLL�Ӟ��或者访问DLL的每一个进�E�或者线�E�不再��用DLL或者结束时�Q�都�?x��)调用DLLMain。但是，使用TerminateProcess或TerminateThread�l�束�q�程或者线�E�，不会(x��)调用DLLMain�?/p>
7、一个DLL在内存�(sh��)��只有一个实�?/p>
DLL�E�序和调用其输出函数的程序的关系�Q?/p>
1)、DLL与进�E�、线�E�之间的关系

DLL模块被映��到调用它的�q�程的虚拟地址�I�间�?/p>
DLL使用的内存�(sh��)��调用�q�程的虚拟地址�I�间分配�Q�只能被该进�E�的�U�程所讉K��?/p>
DLL的句柄可以被调用�q�程使用�Q�调用进�E�的句柄可以被DLL使用�?/p>
DLLDLL可以有自��q��数据�D�，但没有自��q��堆栈�Q��用调用进�E�的栈，与调用它的应用程序相同的堆栈模式�?/p>
2)、关于共享数据段

DLL定义的全局变量可以被调用进�E�访问；DLL可以讉K��调用�q�程的全局数据。��用同一DLL的每一个进�E�都有自��q��DLL全局变量实例。如果多个线�E��ƈ发访问同一变量�Q�则需要��用同步机�Ӟ��对一个DLL的变量，如果希望每个使用DLL的线�E�都有自��q��|��则应该��用线�E�局部存�?TLS�Q�Thread Local Strorage)�?br>

论函数调用约�?/strong>

在C语言中，假设我们有这��L(f��ng)��一个函敎ͼ�(x��)
　　
　　int function(int a,int b)
　　
　　调用时只要用result = function(1,2)�q�样的方式就可以使用�q�个函数。但是，当高�U�语�a�被编译成计算机可以识别的机器码时�Q�有一个问题就凸现出来�Q�在CPU中，计算机没有办法知道一个函数调用需要多��个、什么样的参敎ͼ�也没有硬件可以保存这些参数。也��是��_(d��)��计算��Z��知道怎么�l�这个函��C��递参敎ͼ�传递参数的工作必须由函数调用者和函数本��n来协调。�ؓ(f��)此，计算机提供了(ji��n)一�U�被�U�Cؓ(f��)栈的数据�l�构来支持参��C��递�?/p>
　　栈是一�U�先�q�后出的数据�l�构�Q�栈有一个存储区、一个栈��指针。栈��指针指向堆栈中�W�一个可用的数据��（被称为栈��Ӟ��(j��)。用户可以在栈顶上方向栈中加入数据，�q�个操作被称为压�?Push)�Q�压栈以后，栈顶自动变成新加入数据项的位�|�，栈顶指针也随之修攏V��用户也可以从堆栈中取走栈顶�Q�称为弹出栈(pop)�Q�弹出栈后，栈顶下的一个元素变成栈��Ӟ��栈顶指针随之修改�?/p>
　　函数调用�Ӟ��调用者依�ơ把参数压栈�Q�然后调用函敎ͼ�函数被调用以后，在堆栈中取得数据�Q��ƈ�q�行计算。函数计��结束以后，或者调用者、或者函数本�w�修改堆栈，使堆栈恢复原装�?/p>
　　在参��C��递中�Q�有两个很重要的问题必须得到明确说明�Q?br>　　
　　当参��C��数多于一个时�Q�按照什么顺序把参数压入堆栈
　　函数调用后，��p��来把堆栈恢复原装
　　在高�U�语�a�中，通过函数调用�U�定来说明这两个问题。常见的调用�U�定有：(x��)

　　stdcall
　　cdecl
　　fastcall
　　thiscall
　　naked call

　　stdcall调用�U�定
　　stdcall很多时候被�U�Cؓ(f��)pascal调用�U�定�Q�因为pascal是早期很常见的一�U�教学用计算机程序设计语�a��Q�其语法严�}�Q��用的函数调用�U�定��是stdcall。在Microsoft C++�p�d��的C/C++�~�译器中�Q�常常用PASCAL宏来声明�q�个调用�U�定�Q�类似的宏还有WINAPI和CALLBACK�?/p>
　　stdcall调用�U�定声明的语法�ؓ(f��)(以前文的那个函数��Z��Q�：(x��)
　　
　　int __stdcall function(int a,int b)
　　
　　stdcall的调用约定意味着�Q?�Q�参��C��叛_��左压入堆栈，2�Q�函数自�w�修改堆�?3)函数名自动加前导的下划线�Q�后面紧跟一个@�W�号�Q�其后紧跟着参数的尺�?/p>
　　以上�q�这个函��Cؓ(f��)例，参数b首先被压栈，然后是参数a�Q�函数调用function(1,2)调用处翻译成汇编语言��变成：(x��)

　　push 2　　　　　　　 �W�二个参数入�?br>　　push 1　　　　　　　 �W�一个参数入�?br>　　call function　　　　调用参数�Q�注意此时自动把cs:eip入栈

　　而对于函数自�w�，则可以翻译�ؓ(f��)�Q?
　　push ebp　　　　　　保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov　ebp, esp　　　　保存堆栈指针
　　mov　eax,[ebp + 8H]　堆栈中ebp指向位置之前依次保存有ebp, cs:eip, a, b, ebp +8指向a
　　add　eax,[ebp + 0CH] 堆栈中ebp + 12处保存�(sh��)��(ji��n)b
　　mov　esp, ebp　　　　恢复esp
　　pop　ebp
　　ret　8

　　而在�~�译�Ӟ��q�个函数的名字被��译�?a href="mailto:_function@8">_function@8

　　注意不同�~�译器会(x��)插入自己的汇�~�代码以提供�~�译的通用性，但是大体代码如此。其中在函数开始处保留esp到ebp中，在函数结束恢复是�~�译器常用的�Ҏ(gu��)��?/p>
　　从函数调用看�Q?�?依次被push�q�堆栈，而在函数中又通过相对于ebp(卛_��q�函数时的堆栈指针）(j��)的偏�U�量存取参数。函数结束后�Q�ret 8表示清理8个字节的堆栈�Q�函数自己恢复了(ji��n)堆栈�?/p>
　　
　　cdecl调用�U�定
　　cdecl调用�U�定又称为C调用�U�定�Q�是C语言�~�省的调用约定，它的定义语法是：(x��)

　　int function (int a ,int b)　//不加修饰��是C调用�U�定
　　int __cdecl function(int a,int b)//明确指出C调用�U�定

　　在写本文�Ӟ��Z��我的意料�Q�发现cdecl调用�U�定的参数压栈顺序是和stdcall是一��L(f��ng)��Q�参数首先由叛_��左压入堆栈。所不同的是�Q�函数本�w�不清理堆栈�Q�调用者负责清理堆栈。由于这�U�变化，C调用�U�定允许函数的参数的个数是不固定的，�q�也是C语言的一大特艌Ӏ�对于前面的function函数�Q��用cdecl后的汇编码变成：(x��)

　　调用�?br>　　push 1
　　push 2
　　call function
　　add　esp, 8　　　　　注意�Q�这里调用者在恢复堆栈

　　被调用函数_function�?br>　　push ebp　　　　　　保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov　ebp,esp　　　　保存堆栈指针
　　mov　eax,[ebp + 8H]　堆栈中ebp指向位置之前依次保存有ebp,cs:eip,a,b,ebp +8指向a
　　add　eax,[ebp + 0CH] 堆栈中ebp + 12处保存�(sh��)��(ji��n)b
　　mov　esp,ebp　　　　恢复esp
　　pop　ebp
　　ret　　　　　　　　　注意�Q�这里没有修改堆�?/p>
　　MSDN中说�Q�该修饰自动在函数名前加前导的下划线�Q�因此函数名在符可��中被记录为_function�Q�但是我在编译时��g��没有看到�q�种变化�?/p>
　　�׃��参数按照从右向左��序压栈�Q�因此最开始的参数在最接近栈顶的位�|�，因此当采用不定个数参数时�Q�第一个参数在栈中的位�|�肯定能知道�Q�只要不定的参数个数能够�Ҏ(gu��)��W�一个后者后�l�的明确的参数确定下来，��可以��用不定参敎ͼ�例如对于CRT中的sprintf函数�Q�定义�ؓ(f��)�Q?
　　int sprintf(char* buffer,const char* format,...)
　　�׃��所有的不定参数都可以通过format��定�Q�因此��用不定个数的参数是没有问题的�?/p>
　　fastcall
　　fastcall调用�U�定和stdcall�c�M��Q�它意味着�Q?
　　
　　函数的第一个和�W�二个DWORD参数�Q�或者尺寸更��的�Q�通过ecx和edx传递，其他参数通过从右向左的顺序压�?
　　被调用函数清理堆�?
　　函数名修改规则同stdcall
　　其声明语法�ؓ(f��)�Q�int fastcall function(int a, int b)

　　thiscall
　　thiscall是唯一一个不能明��指明的函数修饰�Q�因为thiscall不是关键字。它是C++�c�L��员函数缺省的调用�U�定。由于成员函数调用还有一个this指针�Q�因此必��ȝ��D�处理，thiscall意味着�Q?

　　参数从右向左入栈
　　如果参数个数��定�Q�this指针通过ecx传递给被调用者；如果参数个数不确定，this指针在所有参数压栈后被压入堆栈。对参数个数不定的，调用者清理堆栈，否则函数自己清理堆栈��Z��(ji��n)说明�q�个调用�U�定�Q�定义如下类和��用代码：(x��)

　　class A
　　{
　　public:
　　　 int function1(int a,int b);
　　　 int function2(int a,...);
　　};

　　int A::function1 (int a,int b)
　　{
　　　 return a+b;
　　}

　　#include
　　int A::function2(int a,...)
　　{
　　　 va_list ap;
　　　 va_start(ap,a);
　　　 int i;
　　　 int result = 0;
　　　 for(i = 0 ; i < a ; i ++)
　　　 {
　　　　　result += va_arg(ap,int);
　　　 }
　　　 return result;
　　}

　　void callee()
　　{
　　　 A a;
　　　 a.function1(1, 2);
　　　 a.function2(3, 1, 2, 3);
　　}

callee函数被翻译成汇编后就变成�Q?
　　//函数function1调用
　　00401C1D　 push　　　　2
　　00401C1F　 push　　　　1
　　00401C21　 lea　　　　 ecx,[ebp-8]
　　00401C24　 call　　　　function1　　　　　注意�Q�这里this没有被入�?/p>
　　//函数function2调用
　　00401C29　 push　　　　3
　　00401C2B　 push　　　　2
　　00401C2D　 push　　　　1
　　00401C2F　 push　　　　3
　　00401C31　 lea　　　　 eax, [ebp-8]　　　 �q�里引入this指针
　　00401C34　 push　　　　eax
　　00401C35　 call　　　　function2
　　00401C3A　 add　　　　 esp, 14h
　　
　　可见�Q�对于参��C��数固定情况下�Q�它�c�M��于stdcall�Q�不定时则类似cdecl

　　naked call
　　�q�是一个很��见的调用约定，一般程序设计者徏议不要��用。编译器不会(x��)�l�这�U�函数增加初始化和清理代码，更特�D�的是，你不能用return�q�回�q�回��|��只能用插入汇�~�返回结果。这一般用于实模式驱动�E�序设计�Q�假讑֮�义一个求和的加法�E�序�Q�可以定义�ؓ(f��)�Q?

　　__declspec(naked) int　add(int a,int b)
　　{
　　　 __asm mov eax,a
　　　 __asm add eax,b
　　　 __asm ret
　　}

　　注意�Q�这个函数没有显式的return�q�回��|��q�回通过修改eax寄存器实玎ͼ�而且�q�退出函数的ret指��o(h��)都必��L��式插入。上面代码被��译成汇�~�以后变成：(x��)

　　mov eax,[ebp+8]
　　add eax,[ebp+12]
　　ret 8

　注意�q�个修饰是和__stdcall�?qi��ng)cdecl�l�合使用的，前面是它和cdecl�l�合使用的代码，对于和stdcall�l�合的代码，则变成：(x��)

　　__declspec(naked) int __stdcall function(int a,int b)
　 {
　　　　__asm mov eax,a
　　　　__asm add eax,b
　　　　__asm ret 8　　　　//注意后面�?
　　}

　　至于�q�种函数被调用，则和普通的cdecl�?qi��ng)stdcall调用函数一致�?/p>
　　函数调用�U�定��D��的常见问�?br>　　如果定义的约定和使用的约定不一��_(d��)��则将��D��堆栈被破坏，��D��严重问题�Q�下面是两种常见的问题：(x��)

　　函数原型声明和函��C��定义不一�?
　　DLL导入函数时声明了(ji��n)不同的函数约�?
　　以后者�ؓ(f��)例，假设我们在dll�U�声明了(ji��n)一�U�函��Cؓ(f��)�Q?

　　__declspec(dllexport) int func(int a,int b);//注意�Q�这里没有stdcall�Q��用的是cdecl
　　使用时代码�ؓ(f��)�Q?

　　typedef int (*WINAPI DLLFUNC)func(int a,int b);
　　hLib = LoadLibrary(...);

　　DLLFUNC func = (DLLFUNC)GetProcAddress(...)//�q�里修改�?ji��n)调用约�?br>　　result = func(1,2);//��D��错误

　　�׃��调用者没有理解WINAPI的含义错误的增加�?ji��n)这个修饎ͼ�上述代码必然��D��堆栈被破坏，MFC在编译时插入的checkesp函数��告诉你�Q�堆栈被破坏

沙漠里的�� 2009-05-15 17:30 发表评论

如何创徏自己的dll

沙漠里的�� — Tue, 28 Apr 2009 04:10:00 GMT

前几天有个朋友问道这个问题，�l�果因�ؓ(f��)以前从没搞过�q�个�Q�对vs2005也不熟�?zh��n)��Q�竟�׃��(ji��n)2个小时才搞定�Q?img height=20 src="http://m.shnenglu.com/Emoticons/QQ/07.gif" width=20 border=0>�?/pre>
特地拿来与大家分享，希望能给像我�q�样的菜鸟们一些帮助，O(∩_∩)O

【第一步】创��q��dll

1.打开vs2005�Q�选择菜单【File-New-Project】，在弹出对话框中选择[Visual C++]下的[Win32]-[Win32 Console Application]�Q�输入工�E�名后确认�?/pre>
2.在弹出的对话框中选择[next]�Q�在Application Settiongs中选择Application type为Dll�Q�Additional options选择Empty project�Q�然后点Finish�?/pre>
�q�时��创��Z��(ji��n)一个空的可以生成dll文�g的工�E��?/pre>
3.在工�E�中��d��一个头文�g(�q�里为dll_test.h)�Q�在头文件中写入如下内容�Q?/pre>
1 #ifndef _DLL_TUTORIAL_H
2 #define _DLL-TUTORIAL_H
3
4 #include<iostream>
5
6 #if defined DLL_EXPORT
7   #define DECLDIR _declspec(dllexport)
8 #else
9   #define DECLDIR _declspec(dllimport)
10 #endif
11
12 extern "C"
13 {
14   DECLDIR int Add(int a, int b);
15   DECLDIR void Function(void);
16 }
17
18 #endif

�q�里要说明的是：(x��)

在VC中有两个�Ҏ(gu��)��来导出dll中定义的函数�Q?/pre>
(1) 使用__declspec,�q�是一个Microsoft定义的关键字�?/pre>
(2) 创徏一个模板定义文�?Module-Definition File�Q�即.DEF)�?/pre>
�W�一�U�方法稍�E�比�W�二�U�方法简单，在这里我们��用的是第一�U�方法�?/pre>
__declspec(dllexport)函数的作用是导出函数�W�号到在你的Dll中的一个存储类里去�?/pre>
当下面一行被定义时我定义DECLDIR宏来�q�行�q�个函数�?/pre>
#define DLL_EXPORT

在此情况下你��导出函数Add(int a,int b)和Function().

4.创徏一个源文�g(名字为dll_test.cpp)�Q�内容如下：(x��)

1 #include <iostream>
2 #define DLL_EXPORT
3 #include "dll_test.h"
4
5 extern "C"
6 {
7         // 定义�?ji��n)（DLL中的�Q�所有函�?/span>
8     DECLDIR int Add( int a, int b )
9     {
10         return( a + b );
11     }
12
13     DECLDIR void Function( void )
14     {
15         std::cout << "DLL Called!" << std::endl;
16     }
17 }
18

【第二步】��用创建好的DLL

现在已经创徏�?ji��n)DLL�Q�那么如何在一个应用程序中使用它呢�Q?/pre>
当DLL被生成后�Q�它创徏�?ji��n)一�?dll文�g和一�?lib�Q�这两个都是使用dll旉��要用到的�?/pre>
在具体介�l�之前先看一下dll的链接方式�?/pre>
(1)隐式�q�接

�q�里有两个方法来载入一个DLL�Q�一个方法是只链接到.lib文�g�Q��ƈ��?dll文�g攑ֈ�要��用这个DLL的项目�\径中�?/pre>
因此�Q�创��Z��个新的空的Win32控制台项目�ƈ��d��一个源文�g。将我们创徏好的DLL攑օ�与新��目相同的目录下。同时我们还必须链接到dll_test.lib文�g�?/pre>
可以在项目属性中讄��Q�也可以在源�E�序中用下面的语句来链接�Q? #pragma comment(lib, "dll_test.lib")

最后，我们�q�要在新的win32控制台项目中包含前面的dll_test.h头文件。可以把�q�个头文件放到新建win32控制台项目的目录中然后在�E�序中加入语句：(x��) #include "dll_test.h"

新项目代码如下：(x��)

#include

#include "DLLTutorial.h"

int main()

{

Function();

std::cout<< Add(32, 56)<< endl;

return 0;

}

(2)昄��链接

�E�微复杂一点的加蝲DLL的方法需要用到函数指针和一些Windows函数。但是，通过�q�种载入DLL的方法，不需要DLL�?lib文�g或头文�g�Q�而只需要DLL卛_��?/pre>
下面列出一些代码：(x��)

/****************************************************************/ #include #include typedef int (*AddFunc)(int,int); typedef void (*FunctionFunc)();

int main()

{ AddFunc _AddFunc;

FunctionFunc _FunctionFunc;

HINSTANCE hInstLibrary = LoadLibrary("DLL_Tutorial.dll");

if (hInstLibrary == NULL) { FreeLibrary(hInstLibrary); }

_AddFunc = (AddFunc)GetProcAddress(hInstLibrary, "Add");

_FunctionFunc = (FunctionFunc)GetProcAddress(hInstLibrary, "Function");

if ((_AddFunc == NULL) || (_FunctionFunc == NULL)) { FreeLibrary(hInstLibrary); }

std::cout << _AddFunc(23, 43) << std::endl;

_FunctionFunc();

std::cin.get();

FreeLibrary(hInstLibrary);

return(1); } /*******************************************************************/

首先可以看到�Q�这里包括进�?ji��n)windows.h头文�Ӟ��同时��L��?ji��n)对dll_test.h头文件的包含。原因很��单：(x��)因�ؓ(f��)windows.h包含�?ji��n)一些Windows函数�Q?/pre>
它也包含�?ji��n)一些将�?x��)用到的Windows特定变量。可以去掉DLL的头文�g�Q�因为当使用�q�个�Ҏ(gu��)��载入DLL时�ƈ不需要其头文件�?/pre>
下面你会(x��)看到�Q�以下面形式的一��块古灵�_�怪的代码:

typedef int (*AddFunc)(int,int); typedef void (*FunctionFunc)();

�q�是函数指针。因��是一个关于DLL的自学指南，深入探究函数指针��出�?ji��n)本指南的范��_(d��)��因此�Q�现在我们只把它们当作DLL包含的函数的别名�?/pre>
我喜�Ƣ在��N��?#8220;Func”命名之�?int,int)部分是这个函数的参数部分�Q�比如，Add函数要获得两个整敎ͼ�因此�Q�你需要它�?/pre>
�Q�译注：(x��)�?int,int)部分�Q�作为函数指针的参数。Function函数没有参数�Q�因此你让它为空。main()部分中的前面两行是声明函数指针以使得你可

以认为它们等同于DLL内部的函数。我只是喜欢预先定义它们�?/pre>
一个HINSTANCE是一个Windows数据�c�d��Q�是一个实例的句柄�Q�在此情况下�Q�这个实例将是这个DLL。你可以通过使用函数LoadLibrary()获得DLL�?/pre>
实例�Q�它获得一个名�U�C��为参数�?/pre>
在调用LoadLibrary函数后，你必需查看一下函数返回是否成功。你可以通过��(g��)查HINSTANCE是否�{�于NULL�Q�在Windows.h中定义�ؓ(f��)0或Windows.h�?/pre>
含的一个头文�g�Q�来查看其是否成功。如果其�{�于NULL�Q�该句柄��是无效的，�q�且你必需释放�q�个库。换句话��_(d��)��你必需释放DLL获得的内存�?/pre>
如果函数�q�回成功�Q�你的HINSTANCE��包含了(ji��n)指向DLL的句柄。一旦你获得�?ji��n)指向DLL的句柄，你现在可以从DLL中重新获得函数�?/pre>
��Z��(ji��n)�q�样作，你必��M��用函数GetProcAddress()�Q�它?y��u)��DLL的句柄（你可以��用HINSTANCE�Q�和函数的名�U�C��为参数。你可以让函数指针获得由

GetProcAddress()�q�回的��|��同时你必需��GetProcAddress()转换为那个函数定义的函数指针。�D个例子，对于Add()函数�Q�你必需��GetProcAddress()

转换为AddFunc�Q�这��是它知道参数及(qi��ng)�q�回值的原因。现在，最好先��定函数指针是否�{�于NULL以及(qi��ng)它们拥有DLL的函数�?/pre>
�q�只是一个简单的if语句�Q�如果其中一个等于NULL�Q�你必需如前所�q�释攑ֺ�。一旦函数指针拥有DLL的函敎ͼ�你现在就可以使用它们�?ji��n)，但是�q�里有一�?/pre>
需要注意的地方�Q�你不能使用函数的实际名�U�ͼ�你必需使用函数指针来调用它们。在那以后，所有你需要做的是释放库如此而已�?/pre>
现在你知道了(ji��n)DLL的一些基本知识。你知道如何创徏它们�Q�你也知道如何用两种不同的方法链接它们。这里仍然有更多的东襉K��要我们学�?f��n)，但我把它们留�l�你们自己探索了(ji��n)和更��的作者来写了(ji��n)�?

沙漠里的�� 2009-04-28 12:10 发表评论


		Daniel Robbins 居住在新墨西哥州�?Albuquerque。他�?Gentoo Technologies, Inc. 的总裁�?CEO�Q�Gentoo ��目的总设计师�Q�MacMillan 出版书籍的撰�E�作者，他的著作有：(x��) Caldera OpenLinux Unleashed, SuSE Linux Unleashed, �?Samba Unleashed。Daniel 自二�q��起就与计��机某些领域�l�下不解之缘�Q�那时他首先接触的是 Logo �E�序语言�Q��ƈ沉�h�?Pac-Man 游戏中。这也许��是他至今仍担�Q SONY Electronic Publishing/Psygnosis 的首席图形设计师的原因所在。Daniel 喜欢与妻�?Mary 和新出生的女�?Hadassah 一起共度时光。可通过 drobbins@gentoo.org�?Daniel 联系�?


		Rawn Shah 是居住在亚利桑那州图��市(j��ng)的一位独立顾问。他多年来与多��^台问题打交道�q�撰写相��x(ch��ng)��章，但常��o(h��)他不解的是很��有人知道有用的�pȝ��工具�?/p>