午夜精品国产,欧美一级专区,在线国产精品播放

堆和栈的区别 (转脓)

沙漠里的�� — Tue, 19 May 2009 08:53:00 GMT

堆和栈的区别 (转脓)

非本��Z��?因非常经�?所以收归旗�?与众人阅�?原作者不��?

堆和栈的区别
一、预备知识—程序的内存分配
一个由c/C++�~�译的程序占用的内存分�ؓ以下几个部分
1、栈区（stack�Q��?nbsp;��q��译器自动分配释放 �Q�存攑և�数的参数��|��局部变量的值等。其操作方式�c�M��于数据结构中的栈�?br>2、堆区（heap�Q?nbsp;�?nbsp;一般由�E�序员分配释放，若程序员不释放，�E�序�l�束时可能由OS回收。注意它与数据结构中的堆是两回事�Q�分配方式倒是�c�M��于链表，呵呵�?br>3、全局区（静态区�Q�（static�Q�—，全局变量和静态变量的存储是放在一块的�Q�初始化的全局变量和静态变量在一块区域，未初始化的全局变量和未初始化的静态变量在盔R��的另一块区域�?nbsp;- �E�序�l�束后有�pȝ��释放
4、文字常量区—常量字�W�串��是攑֜��q�里的�?nbsp;�E�序�l�束后由�pȝ��释放
5、程序代码区—存攑և��C��的二�q�制代码�?br>二、例子程�?nbsp;
�q�是一个前辈写的，非常详细
//main.cpp
int a = 0; 全局初始化区
char *p1; 全局未初始化�?nbsp;
main()
{
int b; �?nbsp;
char s[] = "abc"; �?nbsp;
char *p2; �?nbsp;
char *p3 = "123456"; 123456\0在常量区�Q�p3在栈上�?nbsp;
static int c =0�Q?nbsp;全局�Q�静态）初始化区
p1 = (char *)malloc(10);
p2 = (char *)malloc(20);
分配得来�?0�?0字节的区域就在堆区�?nbsp;
strcpy(p1, "123456"); 123456\0攑֜�帔R��区，�~�译器可能会��它与p3所指向�?123456"优化成一个地斏V�?nbsp;
}

二、堆和栈的理论知�?nbsp;
2.1甌��方式
stack:
��q��l�自动分配�?nbsp;例如�Q�声明在函数中一个局部变�?nbsp;int b; �pȝ��自动在栈中�ؓb开辟空�?nbsp;
heap:
需要程序员自己甌��Q��ƈ指明大小�Q�在c中malloc函数
如p1 = (char *)malloc(10);
在C++中用new�q�算�W?nbsp;
如p2 = (char *)malloc(10);
但是注意p1、p2本��n是在栈中的�?nbsp;

2.2
甌��后系�l�的响应
栈：只要栈的剩余�I�间大于所甌��I�间�Q�系�l�将为程序提供内存，否则��报异常提示栈溢出�?nbsp;
堆：首先应该知道操作�pȝ��有一个记录空闲内存地址的链表，当系�l�收到程序的甌��Ӟ��
会遍历该链表�Q�寻扄��一个空间大于所甌��I�间的堆�l�点�Q�然后将该结点从�I�闲�l�点链表中删除，�q�将该结点的�I�间分配�l�程序，另外�Q�对于大多数�pȝ��Q�会在这块内存空间中的首地址处记录本�ơ分配的大小�Q�这��P��代码中的delete语句才能正确的释放本内存�I�间。另外，�׃��扑ֈ�的堆�l�点的大��不一定正好等于申��L��大小�Q�系�l�会自动的将多余的那部分重新攑օ��I�闲链表中�?nbsp;

2.3甌��大小的限�?nbsp;
栈：在Windows�?栈是向低地址扩展的数据结构，是一块连�l�的内存的区域。这句话的意思是栈顶的地址和栈的最大容量是�pȝ��预先规定好的�Q�在WINDOWS下，栈的大小�?M�Q�也有的说是1M�Q��M��是一个编译时��q��定的常数�Q�，如果甌��的空间超�q�栈的剩余空间时�Q�将提示overflow。因此，能从栈获得的�I�间较小�?nbsp;
堆：堆是向高地址扩展的数据结构，是不�q�箋的内存区域。这是由于系�l�是用链表来存储的空闲内存地址的，自然是不�q�箋的，而链表的遍历方向是由低地址向高地址。堆的大��受限于计算机系�l�中有效的虚拟内存。由此可见，堆获得的�I�间比较灉|��Q�也比较大�?nbsp;

2.4甌��效率的比较：
栈由�pȝ��自动分配�Q�速度较快。但�E�序员是无法控制的�?nbsp;
堆是由new分配的内存，一般速度比较慢，而且�Ҏ��产生内存��片,不过用�v来最方便.
另外�Q�在WINDOWS下，最好的方式是用VirtualAlloc分配内存�Q�他不是在堆�Q�也不是在栈是直接在�q�程的地址�I�间中保留一快内存，虽然用�v来最不方�ѝ��但是速度快，也最灉|��?nbsp;

2.5堆和栈中的存储内�?nbsp;
栈：在函数调用时�Q�第一个进栈的是主函数中后的下一条指令（函数调用语句的下一条可执行语句�Q�的地址�Q�然后是函数的各个参敎ͼ�在大多数的C�~�译器中�Q�参数是由右往左入栈的�Q�然后是函数中的局部变量。注意静态变量是不入栈的�?nbsp;
当本�ơ函数调用结束后�Q�局部变量先出栈�Q�然后是参数�Q�最后栈��指针指向最开始存的地址�Q�也��是��d��C��的下一条指令，�E�序��p��点��l�运行�?nbsp;
堆：一般是在堆的头部用一个字节存攑֠�的大��。堆中的具体内容有程序员安排�?nbsp;

2.6存取效率的比�?nbsp;

char s1[] = "aaaaaaaaaaaaaaa";
char *s2 = "bbbbbbbbbbbbbbbbb";
aaaaaaaaaaa是在�q�行时刻赋值的�Q?nbsp;
而bbbbbbbbbbb是在�~�译时就��定的；
但是�Q�在以后的存取中�Q�在栈上的数�l�比指针所指向的字�W�串(例如�?快�?nbsp;
比如�Q?nbsp;
#include
void main()
{
char a = 1;
char c[] = "1234567890";
char *p ="1234567890";
a = c[1];
a = p[1];
return;
}
对应的汇�~�代�?nbsp;
10: a = c[1];
00401067 8A 4D F1 mov cl,byte ptr [ebp-0Fh]
0040106A 88 4D FC mov byte ptr [ebp-4],cl
11: a = p[1];
0040106D 8B 55 EC mov edx,dword ptr [ebp-14h]
00401070 8A 42 01 mov al,byte ptr [edx+1]
00401073 88 45 FC mov byte ptr [ebp-4],al
�W�一�U�在��d��时直接就把字�W�串中的元素��d��寄存器cl中，而第二种则要先把指针��D��到edx中，在根据edx��d��字符�Q�显然慢了�?nbsp;

2.7��结�Q?nbsp;
堆和栈的区别可以用如下的比喻来看出：
使用栈就象我们去饭馆里吃饭，只管点菜�Q�发出申��P��、付钱、和吃（使用�Q�，吃饱了就赎ͼ�不必理会切菜、洗菜等准备工作和洗��、刷锅等扫尾工作�Q�他的好处是快捷�Q�但是自由度��?nbsp;
使用堆就象是自己动手做喜�Ƣ吃的菜��_��比较�ȝ��Q�但是比较符合自��q��口味�Q�而且自由度大�?nbsp;

windows�q�程中的内存�l�构

在阅��L��文之前，如果你连堆栈是什么多不知道的话，请先阅读文章后面的基��知识�?nbsp;

接触�q�编�E�的人都知道�Q�高�U�语�a�都能通过变量名来讉K��内存中的数据。那么这些变量在内存中是如何存放的呢�Q�程序又是如何��用这些变量的呢？下面��׃��Ҏ��q�行深入的讨论。下文中的C语言代码如没有特别声明，默认都��用VC�~�译的release版�?nbsp;

首先�Q�来了解一�?nbsp;C 语言的变量是如何在内存分部的。C 语言有全局变量(Global)、本地变�?Local)�Q�静态变�?Static)、寄存器变量(Regeister)。每�U�变量都有不同的分配方式。先来看下面�q�段代码�Q?nbsp;

#include

int g1=0, g2=0, g3=0;

int main()
{
static int s1=0, s2=0, s3=0;
int v1=0, v2=0, v3=0;

//打印出各个变量的内存地址

printf("0x%08x\n",&v1); //打印各本地变量的内存地址
printf("0x%08x\n",&v2);
printf("0x%08x\n\n",&v3);
printf("0x%08x\n",&g1); //打印各全局变量的内存地址
printf("0x%08x\n",&g2);
printf("0x%08x\n\n",&g3);
printf("0x%08x\n",&s1); //打印各静态变量的内存地址
printf("0x%08x\n",&s2);
printf("0x%08x\n\n",&s3);
return 0;
}

�~�译后的执行�l�果是：

0x0012ff78
0x0012ff7c
0x0012ff80

0x004068d0
0x004068d4
0x004068d8

0x004068dc
0x004068e0
0x004068e4

输出的结果就是变量的内存地址。其中v1,v2,v3是本地变量，g1,g2,g3是全局变量�Q�s1,s2,s3是静态变量。你可以看到�q�些变量在内存是�q�箋分布的，但是本地变量和全局变量分配的内存地址差了十万八千里，而全局变量和静态变量分配的内存是连�l�的。这是因为本地变量和全局/静态变量是分配在不同类型的内存区域中的�l�果。对于一个进�E�的内存�I�间而言�Q�可以在逻辑上分�?个部份：代码区，静态数据区和动态数据区。动态数据区一般就�?#8220;堆栈”�?#8220;�?stack)”�?#8220;�?heap)”是两�U�不同的动态数据区�Q�栈是一�U�线性结构，堆是一�U�链式结构。进�E�的每个�U�程都有�U�有�?#8220;�?#8221;�Q�所以每个线�E�虽然代码一��P��但本地变量的数据都是互不�q�扰。一个堆栈可以通过“基地址”�?#8220;栈顶”地址来描�q�。全局变量和静态变量分配在静态数据区�Q�本地变量分配在动态数据区�Q�即堆栈中。程序通过堆栈的基地址和偏�U�量来访问本地变量�?nbsp;

├———————┤低端内存区域
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;动态数据区 �?nbsp;
├———————┤
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;代码�?nbsp;�?nbsp;
├———————┤
�?nbsp;静态数据区 �?nbsp;
├———————┤
�?nbsp;…… �?nbsp;
├———————┤高端内存区域

堆栈是一个先�q�后出的数据�l�构�Q�栈��地址��L��于�{�于栈的基地址。我们可以先了解一下函数调用的�q�程�Q�以便对堆栈在程序中的作用有更深入的了解。不同的语言有不同的函数调用规定�Q�这些因素有参数的压入规则和堆栈的��^衡。windows API的调用规则和ANSI C的函数调用规则是不一��L��Q�前者由被调函数调整堆栈�Q�后者由调用者调整堆栈。两者通过“__stdcall”�?#8220;__cdecl”前缀区分。先看下面这�D�代码：

#include

void __stdcall func(int param1,int param2,int param3)
{
int var1=param1;
int var2=param2;
int var3=param3;
printf("0x%08x\n",¶m1); //打印出各个变量的内存地址
printf("0x%08x\n",¶m2);
printf("0x%08x\n\n",¶m3);
printf("0x%08x\n",&var1);
printf("0x%08x\n",&var2);
printf("0x%08x\n\n",&var3);
return;
}

int main()
{
func(1,2,3);
return 0;
}

�~�译后的执行�l�果是：

0x0012ff78
0x0012ff7c
0x0012ff80

0x0012ff68
0x0012ff6c
0x0012ff70

├———————┤<—函数执行时的栈��Ӟ��ESP�Q�、低端内存区�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤
�?nbsp;var 1 �?nbsp;
├———————┤
�?nbsp;var 2 �?nbsp;
├———————┤
�?nbsp;var 3 �?nbsp;
├———————┤
�?nbsp;RET �?nbsp;
├———————┤<�?#8220;__cdecl”函数�q�回后的栈顶�Q�ESP�Q?nbsp;
�?nbsp;parameter 1 �?nbsp;
├———————┤
�?nbsp;parameter 2 �?nbsp;
├———————┤
�?nbsp;parameter 3 �?nbsp;
├———————┤<�?#8220;__stdcall”函数�q�回后的栈顶�Q�ESP�Q?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—栈底（基地址 EBP�Q�、高端内存区�?nbsp;

上图��是函数调用�q�程中堆栈的样子了。首先，三个参数以从又到左的�ơ序压入堆栈�Q�先�?#8220;param3”�Q�再�?#8220;param2”�Q�最后压�?#8220;param1”�Q�然后压入函数的�q�回地址(RET)�Q�接着跌��{到函数地址接着执行�Q�这里要补充一点，介绍UNIX下的�~�冲溢出原理的文章中都提到在压入RET后，�l�箋压入当前EBP�Q�然后用当前ESP代替EBP。然而，有一��介�l�windows下函数调用的文章中说�Q�在windows下的函数调用也有�q�一步骤�Q�但�Ҏ��我的实际调试�Q��ƈ未发现这一步，�q�还可以从param3和var1之间只有4字节的间隙这点看出来�Q�；�W�三步，��栈��?ESP)减去一个数�Q��ؓ本地变量分配内存�I�间�Q�上例中是减�?2字节(ESP=ESP-3*4�Q�每个int变量占用4个字�?�Q�接着��初始化本地变量的内存空间。由�?#8220;__stdcall”调用��p��调函数调整堆栈，所以在函数�q�回前要恢复堆栈�Q�先回收本地变量占用的内�?ESP=ESP+3*4)�Q�然后取��回地址�Q�填入EIP寄存器，回收先前压入参数占用的内�?ESP=ESP+3*4)�Q��l�执行调用者的代码。参见下列汇�~�代码：

;--------------func 函数的汇�~�代�?------------------

:00401000 83EC0C sub esp, 0000000C //创徏本地变量的内存空�?nbsp;
:00401003 8B442410 mov eax, dword ptr [esp+10]
:00401007 8B4C2414 mov ecx, dword ptr [esp+14]
:0040100B 8B542418 mov edx, dword ptr [esp+18]
:0040100F 89442400 mov dword ptr [esp], eax
:00401013 8D442410 lea eax, dword ptr [esp+10]
:00401017 894C2404 mov dword ptr [esp+04], ecx

……………………�Q�省略若�q�代码）

:00401075 83C43C add esp, 0000003C ;恢复堆栈�Q�回收本地变量的内存�I�间
:00401078 C3 ret 000C ;函数�q�回�Q�恢复参数占用的内存�I�间
;如果�?#8220;__cdecl”的话�Q�这里是“ret”�Q�堆栈将��p��用者恢�?nbsp;

;-------------------函数�l�束-------------------------

;--------------�ȝ��序调用func函数的代�?-------------

:00401080 6A03 push 00000003 //压入参数param3
:00401082 6A02 push 00000002 //压入参数param2
:00401084 6A01 push 00000001 //压入参数param1
:00401086 E875FFFFFF call 00401000 //调用func函数
;如果�?#8220;__cdecl”的话�Q�将在这里恢复堆栈，“add esp, 0000000C”

聪明的读者看到这里，差不多就明白�~�冲溢出的原理了。先来看下面的代码：

#include
#include

void __stdcall func()
{
char lpBuff[8]="\0";
strcat(lpBuff,"AAAAAAAAAAA");
return;
}

int main()
{
func();
return 0;
}

�~�译后执行一下回怎么��P��哈，“"0x00414141"指��o引用�?0x00000000"内存。该内存不能�?read"�?#8221;�Q?#8220;非法操作”喽！"41"��是"A"�?6�q�制的ASCII码了�Q�那明显��是strcat�q�句出的问题了�?lpBuff"的大��只�?字节�Q�算�q�结��\0�Q�那strcat最多只能写�?�?A"�Q�但�E�序实际写入�?1�?A"外加1个\0。再来看看上面那�q�图�Q�多出来�?个字节正好覆盖了RET的所在的内存�I�间�Q�导致函数返回到一个错误的内存地址�Q�执行了错误的指令。如果能�_�ֿ�构造这个字�W�串�Q��它分成三部分�Q�前一部䆾仅仅是填充的无意义数据以辑ֈ�溢出的目的，接着是一个覆盖RET的数据，紧接着是一�D�shellcode�Q�那只要着个RET地址能指向这�D�shellcode的第一个指令，那函数返回时��p��执行shellcode了。但是��Y件的不同版本和不同的�q�行环境都可能媄响这�D�shellcode在内存中的位�|�，那么要构造这个RET是十分困隄��。一般都在RET和shellcode之间填充大量的NOP指��o�Q��得exploit有更强的通用性�?nbsp;

├———————┤<—低端内存区�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—由exploit填入数据的开�?nbsp;
�?nbsp;�?nbsp;
�?nbsp;buffer �?lt;—填入无用的数据
�?nbsp;�?nbsp;
├———————┤
�?nbsp;RET �?lt;—指向shellcode�Q�或NOP指��o的范�?nbsp;
├———————┤
�?nbsp;NOP �?nbsp;
�?nbsp;…… �?lt;—填入的NOP指��o�Q�是RET可指向的范围
�?nbsp;NOP �?nbsp;
├———————┤
�?nbsp;�?nbsp;
�?nbsp;shellcode �?nbsp;
�?nbsp;�?nbsp;
├———————┤<—由exploit填入数据的结�?nbsp;
�?nbsp;…… �?nbsp;
├———————┤<—高端内存区�?nbsp;

windows下的动态数据除了可存放在栈中，�q�可以存攑֜�堆中。了解C++的朋友都知道�Q�C++可以使用new关键字来动态分配内存。来看下面的C++代码�Q?nbsp;

#include
#include
#include

void func()
{
char *buffer=new char[128];
char bufflocal[128];
static char buffstatic[128];
printf("0x%08x\n",buffer); //打印堆中变量的内存地址
printf("0x%08x\n",bufflocal); //打印本地变量的内存地址
printf("0x%08x\n",buffstatic); //打印静态变量的内存地址
}

void main()
{
func();
return;
}

�E�序执行�l�果为：

0x004107d0
0x0012ff04
0x004068c0

可以发现用new关键字分配的内存即不在栈中，也不在静态数据区。VC�~�译器是通过windows下的“�?heap)”来实现new关键字的内存动态分配。在�?#8220;�?#8221;之前�Q�先来了解一下和“�?#8221;有关的几个API函数�Q?nbsp;

HeapAlloc 在堆中申请内存空�?nbsp;
HeapCreate 创徏一个新的堆对象
HeapDestroy 销毁一个堆对象
HeapFree 释放甌��的内�?nbsp;
HeapWalk 枚�D堆对象的所有内存块
GetProcessHeap 取得�q�程的默认堆对象
GetProcessHeaps 取得�q�程所有的堆对�?nbsp;
LocalAlloc
GlobalAlloc

当进�E�初始化�Ӟ��pȝ��会自动�ؓ�q�程创徏一个默认堆�Q�这个堆默认所占内存的大小�?M。堆对象��q��l�进行管理，它在内存中以铑ּ��l�构存在。通过下面的代码可以通过堆动态申请内存空��_��

HANDLE hHeap=GetProcessHeap();
char *buff=HeapAlloc(hHeap,0,8);

其中hHeap是堆对象的句柄，buff是指向申��L��内存�I�间的地址。那�q�个hHeap�I�竟是什么呢�Q�它的值有什么意义吗�Q�看看下面这�D�代码吧�Q?nbsp;

#pragma comment(linker,"/entry:main") //定义�E�序的入�?nbsp;
#include

_CRTIMP int (__cdecl *printf)(const char *, ...); //定义STL函数printf
/*---------------------------------------------------------------------------
写到�q�里�Q�我们顺便来复习一下前面所讲的知识�Q?nbsp;
(*�?printf函数是C语言的标准函数库中函敎ͼ�VC的标准函数库由msvcrt.dll模块实现�?nbsp;
由函数定义可见，printf的参��C��数是可变的，函数内部无法预先知道调用者压入的参数个数�Q�函数只能通过分析�W�一个参数字�W�串的格式来获得压入参数的信息，�׃��q�里参数的个数是动态的�Q�所以必��ȝ��调用者来�q��堆栈�Q�这里便使用了__cdecl调用规则。BTW�Q�Windows�pȝ��的API函数基本上是__stdcall调用形式�Q�只有一个API例外�Q�那��是wsprintf�Q�它使用__cdecl调用规则�Q�同printf函数一��P��q�是�׃��它的参数个数是可变的�~�故�?nbsp;
---------------------------------------------------------------------------*/
void main()
{
HANDLE hHeap=GetProcessHeap();
char *buff=HeapAlloc(hHeap,0,0x10);
char *buff2=HeapAlloc(hHeap,0,0x10);
HMODULE hMsvcrt=LoadLibrary("msvcrt.dll");
printf=(void *)GetProcAddress(hMsvcrt,"printf");
printf("0x%08x\n",hHeap);
printf("0x%08x\n",buff);
printf("0x%08x\n\n",buff2);
}

执行�l�果为：

0x00130000
0x00133100
0x00133118

hHeap的值怎么和那个buff的值那么接�q�呢�Q�其实hHeap�q�个句柄��是指向HEAP首部的地址。在�q�程的用户区存着一个叫PEB(�q�程环境�?的结构，�q�个�l�构中存攄��一些有兌��E�的重要信息�Q�其中在PEB首地址偏移0x18处存攄��ProcessHeap��是�q�程默认堆的地址�Q�而偏�U?x90处存放了指向�q�程所有堆的地址列表的指针。windows有很多API都��用进�E�的默认堆来存放动态数据，如windows 2000下的所有ANSI版本的函数都是在默认堆中甌��内存来�{换ANSI字符串到Unicode字符串的。对一个堆的访问是��序�q�行的，同一时刻只能有一个线�E�访问堆中的数据�Q�当多个�U�程同时有访问要求时�Q�只能排队等待，�q�样侉K��成�E�序执行效率下降�?nbsp;

最后来说说内存中的数据寚w��。所位数据对齐，是指数据所在的内存地址必须是该数据长度的整数倍，DWORD数据的内存�v始地址能被4除尽�Q�WORD数据的内存�v始地址能被2除尽�Q�x86 CPU能直接访问对齐的数据�Q�当他试图访问一个未寚w��的数据时�Q�会在内部进行一�p�d��的调��_��q�些调整对于�E�序来说是透明的，但是会降低运行速度�Q�所以编译器在编译程序时会尽量保证数据对齐。同样一�D�代码，我们来看看用VC、Dev-C++和lcc三个不同�~�译器编译出来的�E�序的执行结果：

#include

int main()
{
int a;
char b;
int c;
printf("0x%08x\n",&a);
printf("0x%08x\n",&b);
printf("0x%08x\n",&c);
return 0;
}

�q�是用VC�~�译后的执行�l�果�Q?nbsp;
0x0012ff7c
0x0012ff7b
0x0012ff80
变量在内存中的顺序：b(1字节)-a(4字节)-c(4字节)�?nbsp;

�q�是用Dev-C++�~�译后的执行�l�果�Q?nbsp;
0x0022ff7c
0x0022ff7b
0x0022ff74
变量在内存中的顺序：c(4字节)-中间盔R��3字节-b(�?字节)-a(4字节)�?nbsp;

�q�是用lcc�~�译后的执行�l�果�Q?nbsp;
0x0012ff6c
0x0012ff6b
0x0012ff64
变量在内存中的顺序：同上�?nbsp;

三个�~�译器都做到了数据对齐，但是后两个编译器昄��没VC“聪明”�Q�让一个char占了4字节�Q�浪费内存哦�?nbsp;

基础知识�Q?nbsp;
堆栈是一�U�简单的数据�l�构�Q�是一�U�只允许在其一端进行插入或删除的线性表。允许插入或删除操作的一端称为栈��Ӟ��另一端称为栈底，对堆栈的插入和删除操作被�U�Cؓ入栈和出栈。有一�l�CPU指��o可以实现对进�E�的内存实现堆栈讉K��。其中，POP指��o实现出栈操作�Q�PUSH指��o实现入栈操作。CPU的ESP寄存器存攑ֽ�前线�E�的栈顶指针�Q�EBP寄存器中保存当前�U�程的栈底指针。CPU的EIP寄存器存放下一个CPU指��o存放的内存地址�Q�当CPU执行完当前的指��o后，从EIP寄存器中��d��下一条指令的内存地址�Q�然后��l�执行�?nbsp;

参考：《Windows下的HEAP溢出及其利用》by: isno
《windows核心�~�程》by: Jeffrey Richter

摘要�Q?nbsp;讨论常见的堆性能问题以及如何防范它们。（�?nbsp;9 ��）

前言
您是否是动态分配的 C/C++ 对象忠实且幸�q�的用户�Q�您是否在模块间的往�q�通信中频�J�地使用�?#8220;自动�?#8221;�Q�您的程序是否因堆分配而运行�v来很慢？不仅仅您遇到�q�样的问题。几乎所有项目迟早都会遇到堆问题。大安��惌��Q?#8220;我的代码真正好，只是堆太�?#8221;。那只是部分正确。更深入理解堆及其用法、以及会发生什么问题，是很有用的�?/p>

什么是堆？
�Q�如果您已经知道什么是堆，可以跛_��“什么是常见的堆性能问题�Q?#8221;部分�Q?/p>

在程序中�Q��用堆来动态分配和释放对象。在下列情况下，调用堆操作：

事先不知道程序所需对象的数量和大小�?/p>

对象太大而不适合堆栈分配�E�序�?br>堆��用了在运行时分配�l�代码和堆栈的内存之外的部分内存。下囄��Z��堆分配程序的不同层�?br>screen.width-333)this.width=screen.width-333" border=0 dypop="按此在新�H�口��览囄��">

GlobalAlloc/GlobalFree�Q�Microsoft Win32 堆调用，�q�些调用直接与每个进�E�的默认堆进行对话�?/p>

LocalAlloc/LocalFree�Q�Win32 堆调用（��Z��?nbsp;Microsoft Windows NT 兼容�Q�，�q�些调用直接与每个进�E�的默认堆进行对话�?/p>

COM �?nbsp;IMalloc 分配�E�序�Q�或 CoTaskMemAlloc / CoTaskMemFree�Q�：函数使用每个�q�程的默认堆。自动化�E�序使用“�l��g对象模型 (COM)”的分配程序，而申��L��E�序使用每个�q�程堆�?/p>

C/C++ �q�行�?nbsp;(CRT) 分配�E�序�Q�提供了 malloc() �?nbsp;free() 以及 new �?nbsp;delete 操作�W�。如 Microsoft Visual Basic �?nbsp;Java �{�语�a�也提供了新的操作�W��ƈ使用垃圾攉��来代替堆。CRT 创徏自己的私有堆�Q�驻留在 Win32 堆的�剙��?/p>

Windows NT 中，Win32 堆是 Windows NT �q�行时分配程序周围的薄层。所�?nbsp;API 转发它们的请求给 NTDLL�?/p>

Windows NT �q�行时分配程序提�?nbsp;Windows NT 内的核心堆分配程序。它由具�?nbsp;128 个大��从 8 �?nbsp;1,024 字节的空闲列表的前端分配�E�序�l�成。后端分配程序��用虚拟内存来保留和提交页�?/p>

在图表的底部�?#8220;虚拟内存分配�E�序”�Q�操作系�l��用它来保留和提交��c��所有分配程序��用虚拟内存进行数据的存取�?/p>

分配和释攑֝�不就那么��单吗�Q��ؓ何花费这么长旉��Q?/p>

堆实现的注意事项
传统上，操作�pȝ��和运行时库是与堆的实现共存的。在一个进�E�的开始，操作�pȝ��创徏一个默认堆�Q�叫�?#8220;�q�程�?#8221;。如果没有其他堆可��用，则块的分配��?#8220;�q�程�?#8221;。语�a��q�行时也能在�q�程内创建单独的堆。（例如�Q�C �q�行时创建它自己的堆。）除这些专用的堆外�Q�应用程序或许多已蝲入的动态链接库 (DLL) 之一可以创徏和��用单独的堆。Win32 提供一整套 API 来创建和使用�U�有堆。有兛_��函数�Q�英文）的详��指��|��请参�?nbsp;MSDN�?/p>

当应用程序或 DLL 创徏�U�有堆时�Q�这些堆存在于进�E�空��_��q�且在进�E�内是可讉K��的。从�l�定堆分配的数据��在同一个堆上释放。（不能从一个堆分配而在另一个堆释放。）

在所有虚拟内存系�l�中�Q�堆�ȝ��在操作系�l�的“虚拟内存��理�?#8221;的顶部。语�a��q�行时堆也驻留在虚拟内存�剙��。某些情况下�Q�这些堆是操作系�l�堆中的层，而语�a��q�行时堆则通过大块的分配来执行自己的内存管理。不使用操作�pȝ��堆，而��用虚拟内存函数更利于堆的分配和块的��用�?/p>

典型的堆实现由前、后端分配程序组成。前端分配程序维持固定大��块的空闲列表。对于一�ơ分配调用，堆尝试从前端列表扑ֈ�一个自由块。如果失败，堆被�q�从后端�Q�保留和提交虚拟内存�Q�分配一个大块来满��h��。通用的实现有每块分配的开销�Q�这��耗费执行周期�Q�也减少了可使用的存储空间�?/p>

Knowledge Base 文章 Q10758�Q?#8220;�?nbsp;calloc() �?nbsp;malloc() ��理内存” �Q�搜索文章编��P��, 包含了有兌��些主题的更多背景知识。另外，有关堆实现和设计的详�l�讨��Z��可在下列著作中找刎ͼ�“Dynamic Storage Allocation: A Survey and Critical Review”�Q�作�?nbsp;Paul R. Wilson、Mark S. Johnstone、Michael Neely �?nbsp;David Boles�Q?#8220;International Workshop on Memory Management”, 作�?nbsp;Kinross, Scotland, UK, 1995 �q?nbsp;9 �?http://www.cs.utexas.edu/users/oops/papers.html)�Q�英文）�?/p>

Windows NT 的实玎ͼ�Windows NT 版本 4.0 和更新版本）使用�?nbsp;127 个大��从 8 �?nbsp;1,024 字节�?nbsp;8 字节寚w��块空闲列表和一�?#8220;大块”列表�?#8220;大块”列表�Q�空闲列表[0]�Q?nbsp;保存大于 1,024 字节的块。空闲列表容�U�了用双向链表链接在一��L��对象。默认情况下�Q?#8220;�q�程�?#8221;执行攉��操作。（攉��是将盔R��I�闲块合�q�成一个大块的操作。）攉��耗费了额外的周期�Q�但减少了堆块的内部��片�?/p>

单一全局锁保护堆�Q�防止多�U�程式的使用。（请参�?#8220;Server Performance and Scalability Killers”中的�W�一个注意事��? George Reilly 所著，�?nbsp;“MSDN Online Web Workshop”上（站点�Q?img src="" align=absMiddle border=0>http://msdn.microsoft.com/workshop/server/iis/tencom.asp�Q�英文）。）单一全局锁本质上是用来保护堆数据�l�构�Q�防止跨多线�E�的随机存取。若堆操作太频繁�Q�单一全局锁会�Ҏ��能有不利的影响�?/p>

什么是常见的堆性能问题�Q?br>以下是您使用堆时会遇到的最常见问题�Q?nbsp;

分配操作造成的速度减慢。光分配��p��费很长旉��。最可能��D��q�行速度减慢原因是空闲列表没有块�Q�所以运行时分配�E�序代码会耗费周期��L��较大的空闲块�Q�或从后端分配程序分配新块�?/p>

释放操作造成的速度减慢。释放操作耗费较多周期�Q�主要是启用了收集操作。收集期��_��每个释放操作“查找”它的盔R��块，取出它们�q�构造成较大块，然后再把此较大块插入�I�闲列表。在查找期间�Q�内存可能会随机��到�Q�从而导致高速缓存不能命中，性能降低�?/p>

堆竞争造成的速度减慢。当两个或多个线�E�同时访问数据，而且一个线�E��l�进行之前必��ȝ��待另一个线�E�完成时��发生竞争。竞争��L��D��ȝ��Q�这也是目前多处理器�pȝ��遇到的最大问题。当大量使用内存块的应用�E�序�?nbsp;DLL 以多�U�程方式�q�行�Q�或�q�行于多处理器系�l�上�Q�时��导致速度减慢。单一锁定的��用—常用的解决�Ҏ��—意味着使用堆的所有操作是序列化的。当�{�待锁定时序列化会引��L��E�切换上下文。可以想象交叉�\口闪烁的�U�灯处走走停停导致的速度减慢�?nbsp;
竞争通常会导致线�E�和�q�程的上下文切换。上下文切换的开销是很大的�Q�但开销更大的是数据从处理器高速缓存中丢失�Q�以及后来线�E�复�z�L��的数据重建�?/p>

堆破坏造成的速度减慢。造成堆破坏的原因是应用程序对堆块的不正确使用。通常情�Ş包括释放已释攄��堆块或��用已释放的堆块，以及块的��界重写�{�明��N��题。（破坏不在本文讨论范围之内。有兛_��存重写和泄漏�{�其他细节，请参�?nbsp;Microsoft Visual C++(R) 调试文�� 。）

频繁的分配和重分配造成的速度减慢。这是��用脚本语�a�旉��常普遍的现象。如字符串被反复分配�Q�随重分配增长和释放。不要这样做�Q�如果可能，��量分配大字�W�串和��用缓冲区。另一�U�方法就是尽量少用连接操作�?br>竞争是在分配和释放操作中��D��速度减慢的问题。理��x��况下�Q�希望��用没有竞争和快速分�?释放的堆。可惜，现在�q�没有这��L��通用堆，也许��来会有�?/p>

在所有的服务器系�l�中�Q�如 IIS、MSProxy、DatabaseStacks、网�l�服务器�?nbsp;Exchange 和其他）, 堆锁定实在是个大瓉��。处理器数越多，竞争��p��会恶化�?/p>

��量减少堆的使用
现在您明白��用堆时存在的问题了，��N��您不��x��有能解决�q�些问题的超�U�魔��吗�Q�我可希望有。但没有��法能��堆运行加快—因此不要期望在产品��之前的最后一星期能够大�ؓ改观。如果提前规划堆�{�略�Q�情况将会大大好转。调整��用堆的方法，减少对堆的操作是提高性能的良斏V�?/p>

如何减少使用堆操作？通过利用数据�l�构内的位置可减��堆操作的次数。请考虑下列实例�Q?/p>

struct ObjectA {
// objectA 的数�?nbsp;
}

struct ObjectB {
// objectB 的数�?nbsp;
}

// 同时使用 objectA �?nbsp;objectB

//
// 使用指针
//
struct ObjectB {
struct ObjectA * pObjA;
// objectB 的数�?nbsp;
}

//
// 使用嵌入
//
struct ObjectB {
struct ObjectA pObjA;
// objectB 的数�?nbsp;
}

//
// 集合 – 在另一对象内��?nbsp;objectA �?nbsp;objectB
//

struct ObjectX {
struct ObjectA objA;
struct ObjectB objB;
}

避免使用指针兌��两个数据�l�构。如果��用指针关联两个数据结构，前面实例中的对象 A �?nbsp;B ��被分别分配和释放。这会增加额外开销—我们要避免�q�种做法�?/p>

把带指针的子对象嵌入父对象。当对象中有指针�Ӟ��则意味着对象中有动态元素（癑ֈ�之八十）和没有引用的��C��|�。嵌入增加了位置从而减��了�q�一步分�?释放的需求。这��提高应用程序的性能�?/p>

合�ƈ��对象�Ş成大对象�Q�聚合）。聚合减��分配和释放的块的数量。如果有几个开发者，各自开发设计的不同部分�Q�则最�l�会有许多小对象需要合�q�。集成的挑战��是要找到正��的聚合边界�?/p>

内联�~�冲��够满��百分之八十的需要（aka 80-20 规则�Q�。个别情况下�Q�需要内存缓冲区来保存字�W�串/二进制数据，但事先不知道��d��节数。估计�ƈ内联一个大��能满��癑ֈ�之八十需要的�~�冲区。对剩余的百分之二十�Q�可以分配一个新的缓冲区和指向这个缓冲区的指针。这��P��减��分配和释放调用�q�增加数据的位置�I�间�Q�从�Ҏ��上提高代码的性能�?/p>

在块中分配对象（块化�Q�。块化是以组的方式一�ơ分配多个对象的�Ҏ��。如果对列表的项�q�箋跟踪�Q�例如对一�?nbsp;{名称�Q�值} 对的列表�Q�有两种选择�Q�选择一是�ؓ每一�?#8220;名称-�?#8221;对分配一个节点；选择二是分配一个能容纳�Q�如五个�Q?#8220;名称-�?#8221;对的�l�构。例如，一般情况下�Q�如果存储四对，��可减少节点的数量，如果需要额外的�I�间数量�Q�则使用附加的链表指针�?nbsp;
块化是友好的处理器高速缓存，特别是对�?nbsp;L1-高速缓存，因�ؓ它提供了增加的位�|?nbsp;—不用说对于块分配，很多数据块会在同一个虚拟页中�?/p>

正确使用 _amblksiz。C �q�行�?nbsp;(CRT) 有它的自定义前端分配�E�序�Q�该分配�E�序从后端（Win32 堆）分配大小�?nbsp;_amblksiz 的块。将 _amblksiz 讄��高的��D��潜在地减��对后端的调用次数。这只对�q�泛使用 CRT 的程序适用�?br>使用上述技术将获得的好处会因对象类型、大��及工作量而有所不同。但总能在性能和可升羃性方面有所收获。另一斚w��Q�代码会有点�Ҏ��Q�但如果�l�过深思熟虑，代码�q�是很容易管理的�?/p>

其他提高性能的技�?br>下面是一些提高速度的技术：

使用 Windows NT5 �?nbsp;
�׃��几个同事的努力和辛勤工作�Q?998 �q�初 Microsoft Windows(R) 2000 中有了几个重大改�q�：

改进了堆代码内的锁定。堆代码�Ҏ��堆一个锁。全局锁保护堆数据�l�构�Q�防止多�U�程式的使用。但不幸的是�Q�在高通信量的情况下，堆仍受困于全局锁，��D��高竞争和低性能。Windows 2000 中，锁内代码的��界区��竞争的可能性减到最��?从而提高了可�׾~�性�?/p>

使用 “Lookaside”列表。堆数据�l�构对块的所有空闲项使用了大��在 8 �?nbsp;1,024 字节�Q�以 8-字节递增�Q�的快速高速缓存。快速高速缓存最初保护在全局锁内。现在，使用 lookaside 列表来访问这些快速高速缓存空闲列表。这些列表不要求锁定�Q�而是使用 64 位的互锁操作�Q�因此提高了性能�?/p>

内部数据�l�构��法也得到改�q��?br>�q�些改进避免了对分配高速缓存的需求，但不排除其他的优化。��?nbsp;Windows NT5 堆评估您的代码；它对��于 1,024 字节 (1 KB) 的块�Q�来自前端分配程序的块）是最佳的。GlobalAlloc() �?nbsp;LocalAlloc() 建立在同一堆上�Q�是存取每个�q�程堆的通用机制。如果希望获得高的局部性能�Q�则使用 Heap(R) API 来存取每个进�E�堆�Q�或为分配操作创��q��堆。如果需要对大块操作�Q�也可以直接使用 VirtualAlloc() / VirtualFree() 操作�?/p>

上述改进已在 Windows 2000 beta 2 �?nbsp;Windows NT 4.0 SP4 中��用。改�q�后�Q�堆锁的竞争率显著降低。这使所�?nbsp;Win32 堆的直接用户受益。CRT 堆徏立于 Win32 堆的�剙��Q�但它��用自��q��块堆，因而不能从 Windows NT 改进中受益。（Visual C++ 版本 6.0 也有改进的堆分配�E�序。）

使用分配高速缓�?nbsp;
分配高速缓存允讔R��速缓存分配的块，以便��来重用。这能够减少对进�E�堆�Q�或全局堆）的分�?释放调用的次敎ͼ�也允许最大限度的重用曄��分配的块。另外，分配高速缓存允许收集统计信�?以便较好地理解对象在较高层次上的使用�?/p>

典型圎ͼ�自定义堆分配�E�序在进�E�堆的顶部实现。自定义堆分配程序与�pȝ��堆的行�ؓ很相伹{��主要的差别是它在进�E�堆的顶部�ؓ分配的对象提供高速缓存。高速缓存设计成一套固定大��（�?nbsp;32 字节�?4 字节�?28 字节�{�）。这一个很好的�{�略�Q�但�q�种自定义堆分配�E�序丢失与分配和释放的对象相关的“语义信息”�?nbsp;

与自定义堆分配程序相反，“分配高速缓�?#8221;作�ؓ每类分配高速缓存来实现。除能够提供自定义堆分配�E�序的所有好处之外，它们�q�能够保留大量语义信息。每个分配高速缓存处理程序与一个目标二�q�制对象兌��。它能够使用一套参数进行初始化�Q�这些参数表�C��ƈ发��别、对象大��和保持在空闲列表中的元素的数量�{�。分配高速缓存处理程序对象维持自��q��U�有�I�闲实体池（不超�q�指定的阀��|��q��用私有保护锁。合在一��P��分配高速缓存和�U�有锁减��了与主�pȝ��堆的通信量，因而提供了增加的�ƈ发、最大限度的重用和较高的可�׾~�性�?/p>

需要��用清理程序来定期��查所有分配高速缓存处理程序的�z�d��情况�q�回收未用的资源。如果发现没有活动，��释攑ֈ�配对象的池，从而提高性能�?/p>

可以审核每个分配/释放�z�d��。第一�U�信息包括对象、分配和释放调用的��L��。通过查看它们的统计信息可以得出各个对象之间的语义关系。利用以上介�l�的许多技术之一�Q�这�U�关�p�d��以用来减��内存分配�?/p>

分配高速缓存也起到了调试助手的作用�Q�帮助您跟踪没有完全清除的对象数量。通过查看动态堆栈返回踪�q�和除没有清除的对象之外的签名，甚至能够扑ֈ��切的失败的调用者�?/p>

MP �?nbsp;
MP 堆是对多处理器友好的分布式分配的�E�序包，�?nbsp;Win32 SDK�Q�Windows NT 4.0 和更新版本）中可以得到。最初由 JVert 实现�Q�此处堆抽象建立�?nbsp;Win32 堆程序包的顶部。MP 堆创建多�?nbsp;Win32 堆，�q�试囑ְ�分配调用分布��C��同堆�Q�以减少在所有单一锁上的竞争�?/p>

本程序包是好的步�?nbsp;—一�U�改�q�的 MP-友好的自定义堆分配程序。但是，它不提供语义信息和缺乏统计功能。通常��?nbsp;MP 堆作�?nbsp;SDK 库来使用。如果��用这�?nbsp;SDK 创徏可重用组�Ӟ��您将大大受益。但是，如果在每�?nbsp;DLL 中徏立这�?nbsp;SDK 库，��增加工作设�|��?/p>

重新思考算法和数据�l�构
要在多处理器机器上�׾~�，则算法、实现、数据结构和��g必须动态�׾~�。请看最�l�常分配和释攄��数据�l�构。试问，“我能用不同的数据�l�构完成此工作吗�Q?#8221;例如�Q�如果在应用�E�序初始化时加蝲了只读项的列表，�q�个列表不必是线性链接的列表。如果是动态分配的数组��非常好。动态分配的数组��减��内存中的堆块和��片�Q�从而增强性能�?/p>

减少需要的��对象的数量减少堆分配程序的负蝲。例如，我们在服务器的关键处理�\径上使用五个不同的对象，每个对象单独分配和释放。一起高速缓存这些对象，把堆调用从五个减��到一个，显著减少了堆的负载，特别当每�U�钟处理 1,000 个以上的��h��时�?/p>

如果大量使用“Automation”�l�构�Q�请考虑从主�U�代码中删除“Automation BSTR”�Q�或臛_��避免重复�?nbsp;BSTR 操作。（BSTR �q�接��D��q�多的重分配和分�?释放操作。）

摘要
�Ҏ��有��^台往往都存在堆实现�Q�因此有巨大的开销。每个单独代码都有特定的要求�Q�但设计能采用本文讨论的基本理论来减��堆之间的相互作用�?nbsp;

评�h您的代码中堆的��用�?/p>

改进您的代码�Q�以使用较少的堆调用�Q�分析关键�\径和固定数据�l�构�?/p>

在实现自定义的包装程序之前��用量化堆调用成本的方法�?/p>

如果�Ҏ��能不满意，误��?nbsp;OS �l�改�q�堆。更多这�c�请求意味着�Ҏ��q�堆的更多关注�?/p>

要求 C �q�行时组针对 OS 所提供的堆制作��y的分配包装程序。随着 OS 堆的改进�Q�C �q�行时堆调用的成本将减小�?/p>

操作�pȝ��Q�Windows NT 家族�Q�正在不断改�q�堆。请随时��x��和利用这些改�q��?br>Murali Krishnan �?nbsp;Internet Information Server (IIS) �l�的首席软�g设计工程师。从 1.0 版本开始他��p��?nbsp;IIS�Q��ƈ成功发行�?nbsp;1.0 版本�?nbsp;4.0 版本。Murali �l�织�q��?nbsp;IIS 性能�l�三�q?nbsp;(1995-1998), 从一开始就影响 IIS 性能。他拥有威斯��h��?nbsp;Madison 大学�?nbsp;M.S.和印�?nbsp;Anna 大学�?nbsp;B.S.。工作之外，他喜�Ƣ阅诅R��打排球和家庭烹饪�?br>

http://community.csdn.net/Expert/FAQ/FAQ_Index.asp?id=172835
我在学习对象的生存方式的时候见��C��U�是在堆�?stack)之中�Q�如�?nbsp;
CObject  object;
�q�有一�U�是在堆(heap)�?nbsp; 如下
CObject*  pobject=new  CObject();

请问
�Q?�Q�这两种方式有什么区别？
�Q?�Q�堆栈与堆有什么区别？�Q?nbsp;

---------------------------------------------------------------

1)  about  stack,  system  will  allocate  memory  to  the  instance  of  object  automatically,  and  to  the
heap,  you  must  allocate  memory  to  the  instance  of  object  with  new  or  malloc  manually.
2)  when  function  ends,  system  will  automatically  free  the  memory  area  of  stack,  but  to  the
heap,  you  must  free  the  memory  area  manually  with  free  or  delete,  else  it  will  result  in  memory
leak.
3)栈内存分配运��内�|�于处理器的指��o集中�Q�效率很高，但是分配的内存容量有限�?nbsp;
4�Q�堆上分配的内存可以有我们自己决定，使用非常灉|��?nbsp;
---------------------------------------------------------------

沙漠里的�� 2009-05-19 16:53 发表评论

详解函数调用�U�定

沙漠里的�� — Fri, 15 May 2009 09:30:00 GMT

在编写windows�E�序�Ӟ��我们�l�常发现一些函数的前面带有WINAPI�{�的关键�?不知道这��h��q�是否准��，��h��白的读者联�p�L��人更�?img height=20 src="http://m.shnenglu.com/Emoticons/QQ/13.gif" width=20 border=0>)�Q�如windows的消息响应函数定义如下：

1 LRESULT CALLBACK WndProc (HWND, UINT, WPARAM, LPARAM) ;

�q�里的LRESULT在windows中被定义为long型，而CALLBACK则被定义成了__stacall�Q�仔�l�看了一下，在WINDEF.H中还包含如下定义�Q?br>

1#define CALLBACK    __stdcall
2#define WINAPI      __stdcall
3#define WINAPIV     __cdecl
4#define APIENTRY    WINAPI
5#define APIPRIVATE  __stdcall
6#define PASCAL      __stdcall

那么�Q�这里的__stacall、__cdecl到底是什么意思呢�Q�又有什么作用呢�Q�我�l�过查找相关资料对其有了些许��显的了解，�q�里与大家一起分享�?br>
我们知道�Q�在C语言中假设我们有�q�样一个函数定义：

int function_add(int a, int b);

那么只要�?br>

1int x = 3, y = 5;
2int result = function_add(x, y);

�q�样的方式就可以对函数进行调用了。但是，在计��机中，当高�U�语�a��E�序被编译成计算机可以识别的机器码时�Q�有一个问题就凸现出来�Q�在CPU中，计算机没有办法知道一个函数调用需要多��个参数、这些参数是什么样的，也没有硬件可以保存这些参数。也��是��_��计算机�ƈ不知道应该怎么�l�这个函��C��递参敎ͼ�传递参数的工作必须由函数调用者和函数本��n来协调。�ؓ此，计算机提供了一�U�被�U�Cؓ栈的数据�l�构来支持函数的参数传递�?br>
栈是一�U�先�q�后出的数据�l�构�Q�栈有一个存储区、一个栈��指针。栈��指针指向堆栈中�W�一个可用的数据��?被称为栈��?。用户可以在栈顶的上方向堆栈中加入数据，�q�个操作被称为压�?Push)�Q�压栈以后，栈顶自动变成新加入数据项的位�|�，栈顶指针也随之修攏V��用户也可以从堆栈中取出栈顶元素�Q�这个操作被�U�Cؓ弹出�?pop)�Q�弹出栈以后�Q�栈��的下一个元素变成栈��Ӟ��栈顶指针随之修改�?br>
函数调用�Ӟ��调用者依�ơ把参数压栈�Q�然后调用函敎ͼ�函数被调用以后，在堆栈中取出数据�Q��ƈ�q�行计算。函数计��结束以后，或者调用者、或者函数本�w�修改堆栈，使堆栈恢复原状。问题的关键��在�q�里�Q�到底应该如何清除栈呢？

函数调用需要进行参��C��递，在参��C��递过�E�中有两个很重要的问题必��d��到明��说明：
    1. 当参��C��数多于一个时�Q�按照什么样的顺序把参数压入栈中
    2. 函数调用后，��p��来负责把堆栈恢复原状

在高�U�语�a�中，函数调用�U�定��是用来说明�q�两个问题的。常见的函数调用�U�定有：
        stdcall
        cdecl
        fastcall
        thiscall
        naked call

下面一一�q�行介绍�?br>
一、stdcall调用�U�定

stdcall�Q�也可写作__stdcall�Q�很多时候被�U�Cؓpascal调用�U�定�Q�因为pascal是早期很常见的一�U�教学用计算机程序设计语�a��Q�其语法严�}�Q��用的函数调用�U�定��是stdcall。几乎我们写的每一个WINDOWS API函数都是__stdcall�c�d��的。在Microsoft C++�p�d��的C/C++�~�译器中�Q�常常用PASCAL宏来声明�q�个调用�U�定�Q�类似的宏还有WINAPI和CALLBACK(如文章开头引用的在WINDEF.H头文件中的定�?�?br>
stdcall调用�U�定声明的语法�ؓ�Q�以前面的function_add函数��Z��Q�：

int __stdcall function_add(int a,int b);

stdcall调用�U�定意味着�Q?br>(1) 参数从右向左压入堆栈
(2) 函数自��n修改堆栈
(3) 函数名自动加前导的下划线�Q�后面紧跟一个@�W�号�Q�其后紧跟着参数的大��?br>
以上�q�这个函��Cؓ例，参数b首先被压栈，然后是参数a�Q�函数调用function_add(1, 2)调用处翻译成汇编语言��变成：

      push       2                     // �W�二个参数入�?br>      push       1                      // �W�一个参数入�?br>      call         function_add    // 调用参数�Q�注意此时自动把cs:eip入栈

而对于函数自�w�，则可��译为：
      push       ebp　　　　　　   // 保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
      mov　   ebp, esp　　　　    // 保存堆栈指针
      mov　   eax,[ebp + 8H]　     // 堆栈中ebp指向位置之前依次保存有ebp, cs:eip, a, b, ebp +8指向a
      add　    eax,[ebp + 0CH]      // 堆栈中ebp + 12处保存了b
      mov　   esp, ebp　　　　   // 恢复esp
      pop　    ebp
      ret　      8

而在�~�译�Ӟ��q�个函数的名字被��译�?a href="mailto:_function@8">_function@8

　　注意不同�~�译器会插入自己的汇�~�代码以提供�~�译的通用性，但是大体代码如此。其中在函数开始处保留esp到ebp中，在函数结束恢复是�~�译器常用的�Ҏ��?/p>

　　从函数调用看�Q?�?依次被push�q�堆栈，而在函数中又通过相对于ebp(卛_��q�函数时的堆栈指针）的偏�U�量存取参数。函数结束后�Q�ret 8表示清理8个字节的堆栈�Q�函数自己恢复了堆栈�?br>
�׃��不同的编译器产生栈的方式不尽相同�Q�调用者就不一定能够正常的完成堆栈的清除工作，但函数本�w�自己可以解��x��除工作，所以，在跨�q�_��的程序开发中的函数调用，我们通常都��用__stdcall�U�定�Q�windows下的�l�大多数函数也都是stdcall调用。既然如此，��Z��么还需要__cdecl呢？别着急，接着往下看�?br>
二、cdecl调用�U�定

cdecl�Q�也可写作__cdecl�Q�又�U�CؓC调用�U�定�Q�是C/C++语言和MFC�E�序默认�~�省的调用约定，它的定义语法是：

int function (int a ,int b)　 //不加修饰��是C调用�U�定
int __cdecl function(int a,int b) //明确指出C调用�U�定

采用__cdecl�U�定�Ӟ��函数参数按照从右到左的顺序入栈，�q�且��p��用函数者把参数弹出栈以清理堆栈。因此，实现可变参数的函数只能��用该调用�U�定。由于这�U�变化，C调用�U�定允许函数的参数的个数是不固定的，�q�也是C语言的一大特艌Ӏ�同�Ӟ��׃��每一个��用__cdecl�U�定的函数都要包含清理堆栈的代码�Q�所以��生的可执行文件大��会比较大。__cdecl可以写成_cdecl�?

对于前面的function函数�Q��用cdecl后的汇编码变成：

调用�?br>　　push   1
　　push   2
　　call     function
　　add　esp, 8　　　　　 // 注意�Q�这里调用者在恢复堆栈

　　被调用函数_function�?br>　　push    ebp　　　　　　// 保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov    ebp,esp　　　　 // 保存堆栈指针
　　mov　eax,[ebp + 8H]　 // 堆栈中ebp指向位置之前依次保存有ebp,cs:eip,a,b,ebp +8指向a
　　add　eax,[ebp + 0CH]    // 堆栈中ebp + 12处保存了b
　　mov　esp,ebp　　　　 // 恢复esp
　　pop　ebp
　　ret　　　　　　　　　// 注意�Q�这里没有修改堆�?/p>

不写了，累得慌，呵呵转蝲两篇文章�?br>

__stdcall,__cdecl,_cdecl,_stdcall,。__fastcall,_fastcall 区别��?nbsp;

今天写线�E�函数时�Q�发现msdn中对ThreadProc的定义有要求�Q�DWORD WINAPI ThreadProc(LPVOID lpParameter);

不解��Z��么要用WINAPI宏定义，查了后发��C��面的定义。于是乎需要区别__stdcall和__cdecl两者的区别�Q?#define CALLBACK __stdcall
#define WINAPI __stdcall
#define WINAPIV __cdecl
#define APIENTRY WINAPI
#define APIPRIVATE __stdcall
#define PASCAL __stdcall
#define cdecl _cdecl
#ifndef CDECL
#define CDECL _cdecl
#endif

几乎我们写的每一个WINDOWS API函数都是__stdcall�c�d��的，首先�Q�需要了解两者之间的区别�Q?WINDOWS的函数调用时需要用到栈�Q�STACK�Q�一�U�先入后出的存储�l�构�Q�。当函数调用完成后，栈需要清楚，�q�里��是问题的关键，如何清除�Q�？如果我们的函��C��用了_cdecl�Q�那么栈的清除工作是��p��用者，用COM的术语来讲就是客��h��完成的。这样带来了一个棘手的问题�Q�不同的�~�译器��生栈的方式不��相同，那么调用者能否正常的完成清除工作呢？�{�案是不能�?如果使用__stdcall�Q�上面的问题��p��决了�Q�函数自��p��x��除工作。所以，在跨�Q�开发）�q�_��的调用中�Q�我们都使用__stdcall�Q�虽然有时是以WINAPI的样子出玎ͼ�。那么�ؓ什么还需要_cdecl呢？当我们遇到这��L��函数如fprintf()它的参数是可变的�Q�不定长的，被调用者事先无法知道参数的长度�Q�事后的清除工作也无法正常的�q�行�Q�因此，�q�种情况我们只能使用_cdecl。到�q�里我们有一个结论，如果你的�E�序中没有涉及可变参敎ͼ�最好��用__stdcall关键字�?/p>

__cdecl,__stdcall是声明的函数调用协议.主要是传参和�Ҏ��斚w��的不�?一般c++用的是__cdecl,windows里大都用的是__stdcall(API)

__cdecl是C/C++和MFC�E�序默认使用的调用约定，也可以在函数声明时加上__cdecl关键字来手工指定。采用__cdecl�U�定�Ӟ��函数参数按照从右到左的顺序入栈，�q�且��p��用函数者把参数弹出栈以清理堆栈。因此，实现可变参数的函数只能��用该调用�U�定。由于每一个��用__cdecl�U�定的函数都要包含清理堆栈的代码�Q�所以��生的可执行文件大��会比较大。__cdecl可以写成_cdecl�?
__stdcall调用�U�定用于调用Win32 API函数。采用__stdcall�U�定�Ӟ��函数参数按照从右到左的顺序入栈，被调用的函数在返回前清理传送参数的栈，函数参数个数固定。由于函��C��本��n知道传进来的参数个数�Q�因此被调用的函数可以在�q�回前用一条ret n指��o直接清理传递参数的堆栈。__stdcall可以写成_stdcall�?
__fastcall�U�定用于�Ҏ��能要求非常高的场合。__fastcall�U�定��函数的从左边开始的两个大小不大�?个字节（DWORD�Q�的参数分别攑֜�ECX和EDX寄存器，其余的参��C��旧自叛_��左压栈传送，被调用的函数在返回前清理传送参数的堆栈。__fastcall可以写成_fastcall

__stdcall:

_stdcall 调用�U�定相当�?6位动态库中经�怋�用的PASCAL调用�U�定�?/p>

�?2位的VC++5.0中PASCAL调用�U�定不再被支持（实际上它已被定义为__stdcall。除了__pascal外，__fortran和__syscall也不被支持）�Q�取而代之的是__stdcall调用�U�定。两者实质上是一致的�Q�即函数的参数自叛_��左通过栈传递，被调用的函数在返回前清理传送参数的内存栈，但不同的是函数名的修饰部分（关于函数名的修饰部分在后面将详细说明�Q��?/p>

_stdcall是Pascal�E�序的缺省调用方式，通常用于Win32 Api中，函数采用从右到左的压栈方式，自己在退出时清空堆栈。VC��函数编译后会在函数名前面加上下划线前缀�Q�在函数名后加上"@"和参数的字节数�?/p>

_cdecl:

_cdecl c调用�U�定, 按从双��左的��序压参数入栈，��p��用者把参数弹出栈。对于传送参数的内存栈是��p��用者来�l�护的（正因为如此，实现可变参数的函数只能��用该调用�U�定�Q�。另外，在函数名修饰�U�定斚w��也有所不同�?/p>

_cdecl是C和C�Q�＋�E�序的缺省调用方式。每一个调用它的函数都包含清空堆栈的代码，所以��生的可执行文件大��会比调用_stdcall函数的大。函数采用从叛_��左的压栈方式。VC��函数编译后会在函数名前面加上下划线前缀。是MFC�~�省调用�U�定�?/p>

__fastcall:

__fastcall调用�U�定�?�?如其名，它的主要特点��是快，因�ؓ它是通过寄存器来传送参数的�Q�实际上�Q�它用ECX和EDX传送前两个双字�Q�DWORD�Q�或更小的参敎ͼ�剩下的参��C��旧自叛_��左压栈传送，被调用的函数在返回前清理传送参数的内存栈）�Q�在函数名修饰约定方面，它和前两者均不同�?/p>

_fastcall方式的函数采用寄存器传递参敎ͼ�VC��函数编译后会在函数名前面加�?@"前缀�Q�在函数名后加上"@"和参数的字节数�?/p>

thiscall:

thiscall仅仅应用�?C++"成员函数。this指针存放于CX寄存器，参数从右到左压。thiscall不是关键词，因此不能被程序员指定�?/p>

naked call:

采用1-4的调用约定时�Q�如果必要的话，�q�入函数时编译器会��生代码来保存ESI�Q�EDI�Q�EBX�Q�EBP寄存器，退出函数时则��生代码恢复这些寄存器的内宏V�?/p>

naked call不��生这��L��代码。naked call不是�c�d��修饰�W�，故必��d��_declspec共同使用�?/p>

另附:

关键�?__stdcall、__cdecl和__fastcall可以直接加在要输出的函数前，也可以在�~�译环境的Setting...\C/C++ \Code Generation��w��择。当加在输出函数前的关键字与�~�译环境中的选择不同�Ӟ��直接加在输出函数前的关键字有效。它们对应的命��o行参数分别�ؓ/Gz�?Gd�?Gr。缺省状态�ؓ/Gd�Q�即__cdecl�?/p>

要完全模仿PASCAL调用�U�定首先必须使用__stdcall调用�U�定�Q�至于函数名修饰�U�定�Q�可以通过其它�Ҏ��模仿。还有一个值得一提的是WINAPI宏，Windows.h支持该宏�Q�它可以��出函数��译成适当的调用约定，在WIN32中，它被定义为__stdcall。��用WINAPI宏可以创��q��APIs�?/p>

名字修饰�U�定

1、修饰名(Decoration name)
“C”或�?#8220;C++”函数在内部（�~�译和链接）通过修饰名识别。修饰名是编译器在编译函数定义或者原型时生成的字�W�串。有些情况下使用函数的修饰名是必要的�Q�如在模块定义文仉��头指定输�?#8220;C++”重蝲函数、构造函数、析构函敎ͼ�又如在汇�~�代码里调用“C””�?#8220;C++”函数�{��?

修饰名由函数名、类名、调用约定、返回类型、参数等共同军_��?

2、名字修饰约定随调用�U�定和编译种�c?C或C++)的不同而变化。函数名修饰�U�定随编译种�c�d��调用�U�定的不同而不同，下面分别说明�?

a、C�~�译时函数名修饰�U�定规则�Q?

__stdcall调用�U�定在输出函数名前加上一个下划线前缀�Q�后面加上一�?#8220;@”�W�号和其参数的字节数�Q�格式�ؓ_functionname@number�?

__cdecl调用�U�定仅在输出函数名前加上一个下划线前缀�Q�格式�ؓ_functionname�?/p>

__fastcall调用�U�定在输出函数名前加上一�?#8220;@”�W�号�Q�后面也是一�?#8220;@”�W�号和其参数的字节数�Q�格式�ؓ@functionname@number�?

它们均不改变输出函数名中的字�W�大��写�Q�这和PASCAL调用�U�定不同�Q�PASCAL�U�定输出的函数名无�Q何修��C��全部大写�?

b、C++�~�译时函数名修饰�U�定规则�Q?

__stdcall调用�U�定�Q?
1、以“?”标识函数名的开始，后跟函数名；
2、函数名后面�?#8220;@@YG”标识参数表的开始，后跟参数表；
3、参数表以代可��C�：
X--void �Q?
D--char�Q?
E--unsigned char�Q?
F--short�Q?
H--int�Q?
I--unsigned int�Q?
J--long�Q?
K--unsigned long�Q?
M--float�Q?
N--double�Q?
_N--bool�Q?
....
PA--表示指针�Q�后面的代号表明指针�c�d��Q�如果相同类型的指针�q�箋出现�Q�以“0”代替�Q�一�?#8220;0”代表一�ơ重复；
4、参数表的第一��ؓ该函数的�q�回值类型，其后依次为参数的数据�c�d��,指针标识在其所指数据类型前�Q?
5、参数表后以“@Z”标识整个名字的结束，如果该函数无参数�Q�则�?#8220;Z”标识�l�束�?

其格式�ؓ“?functionname@@YG*****@Z”�?#8220;?functionname@@YG*XZ”�Q�例�?
int Test1�Q�char *var1,unsigned long�Q?----“?Test1@@YGHPADK@Z”
void Test2�Q�） -----“?Test2@@YGXXZ”

__cdecl调用�U�定�Q?
规则同上面的_stdcall调用�U�定�Q�只是参数表的开始标识由上面�?#8220;@@YG”变�ؓ“@@YA”�?

__fastcall调用�U�定�Q?
规则同上面的_stdcall调用�U�定�Q�只是参数表的开始标识由上面�?#8220;@@YG”变�ؓ“@@YI”�?
VC++对函数的省缺声明�?#8220;__cedcl“,��只能被C/C++调用.

CB在输出函数声明时使用4�U�修饰符�?
//__cdecl
cb的默认��|��它会在输出函数名前加_�Q��ƈ保留此函数名不变�Q�参数按照从叛_��左的��序依次传递给栈，也可以写成_cdecl和cdecl形式�?
//__fastcall
她修饰的函数的参数将��肯呢感��C��用寄存器来处理，其函数名前加@�Q�参数按照从左到右的��序压栈�Q?
//__pascal
它说明的函数名��用Pascal格式的命名约定。这时函数名全部大写。参数按照从左到右的��序压栈�Q?
//__stdcall
使用标准�U�定的函数名。函数名不会改变。��用__stdcall修饰时。参数按照由叛_��左的��序压栈�Q�也可以是_stdcall�Q?/p>

VC++对函数的省缺声明�?__cedcl",��只能被C/C++调用.

注意�Q?/p>

1、_beginthread需要__cdecl的线�E�函数地址�Q�_beginthreadex和CreateThread需要__stdcall的线�E�函数地址�?/p>

2、一般WIN32的函数都是__stdcall。而且在Windef.h中有如下的定义：

#define CALLBACK __stdcall

#define WINAPI　 __stdcall

3、extern "C" _declspec(dllexport) int __cdecl Add(int a, int b);

typedef int (__cdecl*FunPointer)(int a, int b);

修饰�W�的书写��序如上�?/p>

4、extern "C"的作用：如果Add(int a, int b)是在c语言�~�译器编译，而在c++文�g使用�Q�则需要在c++文�g中声明：extern "C" Add(int a, int b)�Q�因为c�~�译器和c++�~�译器对函数名的解释不一��P��c++�~�译器解释函数名的时候要考虑函数参数�Q�这��h��了方便函数重载，而在c语言中不存在函数重蝲的问题）�Q��用extern "C"�Q�实质就是告诉c++�~�译器，该函数是c库里面的函数。如果不使用extern "C"则会出现链接错误�?/p>

一般象如下使用�Q?/p>

#ifdef _cplusplus

#define EXTERN_C extern "C"

#else

#define EXTERN_C extern

#endif

#ifdef _cplusplus

extern "C"{

#endif

EXTERN_C int func(int a, int b);

#ifdef _cplusplus

}

#endif

5、MFC提供了一些宏�Q�可以��用AFX_EXT_CLASS来代替__declspec(DLLexport)�Q��ƈ修饰�c�d��Q�从而导出类�Q�AFX_API_EXPORT来修饰函敎ͼ�AFX_DATA_EXPORT来修饰变�?/p>

AFX_CLASS_IMPORT�Q�__declspec(DLLexport)

AFX_API_IMPORT�Q�__declspec(DLLexport)

AFX_DATA_IMPORT�Q�__declspec(DLLexport)

AFX_CLASS_EXPORT�Q�__declspec(DLLexport)

AFX_API_EXPORT�Q�__declspec(DLLexport)

AFX_DATA_EXPORT�Q�__declspec(DLLexport)

AFX_EXT_CLASS�Q?ifdef _AFXEXT

AFX_CLASS_EXPORT

#else

AFX_CLASS_IMPORT

6、DLLMain负责初始�?Initialization)和结�?Termination)工作�Q�每当一个新的进�E�或者该�q�程的新的线�E�访问DLL�Ӟ��或者访问DLL的每一个进�E�或者线�E�不再��用DLL或者结束时�Q�都会调用DLLMain。但是，使用TerminateProcess或TerminateThread�l�束�q�程或者线�E�，不会调用DLLMain�?/p>

7、一个DLL在内存中只有一个实�?/p>

DLL�E�序和调用其输出函数的程序的关系�Q?/p>

1)、DLL与进�E�、线�E�之间的关系

DLL模块被映��到调用它的�q�程的虚拟地址�I�间�?/p>

DLL使用的内存从调用�q�程的虚拟地址�I�间分配�Q�只能被该进�E�的�U�程所讉K��?/p>

DLL的句柄可以被调用�q�程使用�Q�调用进�E�的句柄可以被DLL使用�?/p>

DLLDLL可以有自��q��数据�D�，但没有自��q��堆栈�Q��用调用进�E�的栈，与调用它的应用程序相同的堆栈模式�?/p>

2)、关于共享数据段

DLL定义的全局变量可以被调用进�E�访问；DLL可以讉K��调用�q�程的全局数据。��用同一DLL的每一个进�E�都有自��q��DLL全局变量实例。如果多个线�E��ƈ发访问同一变量�Q�则需要��用同步机�Ӟ��对一个DLL的变量，如果希望每个使用DLL的线�E�都有自��q��|��则应该��用线�E�局部存�?TLS�Q�Thread Local Strorage)�?br>

论函数调用约�?/strong>

在C语言中，假设我们有这��L��一个函敎ͼ�
　　
　　int function(int a,int b)
　　
　　调用时只要用result = function(1,2)�q�样的方式就可以使用�q�个函数。但是，当高�U�语�a�被编译成计算机可以识别的机器码时�Q�有一个问题就凸现出来�Q�在CPU中，计算机没有办法知道一个函数调用需要多��个、什么样的参敎ͼ�也没有硬件可以保存这些参数。也��是��_��计算��Z��知道怎么�l�这个函��C��递参敎ͼ�传递参数的工作必须由函数调用者和函数本��n来协调。�ؓ此，计算机提供了一�U�被�U�Cؓ栈的数据�l�构来支持参��C��递�?/p>
　　栈是一�U�先�q�后出的数据�l�构�Q�栈有一个存储区、一个栈��指针。栈��指针指向堆栈中�W�一个可用的数据��（被称为栈��Ӟ��。用户可以在栈顶上方向栈中加入数据，�q�个操作被称为压�?Push)�Q�压栈以后，栈顶自动变成新加入数据项的位�|�，栈顶指针也随之修攏V��用户也可以从堆栈中取走栈顶�Q�称为弹出栈(pop)�Q�弹出栈后，栈顶下的一个元素变成栈��Ӟ��栈顶指针随之修改�?/p>
　　函数调用�Ӟ��调用者依�ơ把参数压栈�Q�然后调用函敎ͼ�函数被调用以后，在堆栈中取得数据�Q��ƈ�q�行计算。函数计��结束以后，或者调用者、或者函数本�w�修改堆栈，使堆栈恢复原装�?/p>
　　在参��C��递中�Q�有两个很重要的问题必须得到明确说明�Q?br>　　
　　当参��C��数多于一个时�Q�按照什么顺序把参数压入堆栈
　　函数调用后，��p��来把堆栈恢复原装
　　在高�U�语�a�中，通过函数调用�U�定来说明这两个问题。常见的调用�U�定有：

　　stdcall
　　cdecl
　　fastcall
　　thiscall
　　naked call

　　stdcall调用�U�定
　　stdcall很多时候被�U�Cؓpascal调用�U�定�Q�因为pascal是早期很常见的一�U�教学用计算机程序设计语�a��Q�其语法严�}�Q��用的函数调用�U�定��是stdcall。在Microsoft C++�p�d��的C/C++�~�译器中�Q�常常用PASCAL宏来声明�q�个调用�U�定�Q�类似的宏还有WINAPI和CALLBACK�?/p>
　　stdcall调用�U�定声明的语法�ؓ(以前文的那个函数��Z��Q�：
　　
　　int __stdcall function(int a,int b)
　　
　　stdcall的调用约定意味着�Q?�Q�参��C��叛_��左压入堆栈，2�Q�函数自�w�修改堆�?3)函数名自动加前导的下划线�Q�后面紧跟一个@�W�号�Q�其后紧跟着参数的尺�?/p>
　　以上�q�这个函��Cؓ例，参数b首先被压栈，然后是参数a�Q�函数调用function(1,2)调用处翻译成汇编语言��变成：

　　push 2　　　　　　　 �W�二个参数入�?br>　　push 1　　　　　　　 �W�一个参数入�?br>　　call function　　　　调用参数�Q�注意此时自动把cs:eip入栈

　　而对于函数自�w�，则可以翻译�ؓ�Q?
　　push ebp　　　　　　保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov　ebp, esp　　　　保存堆栈指针
　　mov　eax,[ebp + 8H]　堆栈中ebp指向位置之前依次保存有ebp, cs:eip, a, b, ebp +8指向a
　　add　eax,[ebp + 0CH] 堆栈中ebp + 12处保存了b
　　mov　esp, ebp　　　　恢复esp
　　pop　ebp
　　ret　8

　　而在�~�译�Ӟ��q�个函数的名字被��译�?a href="mailto:_function@8">_function@8

　　注意不同�~�译器会插入自己的汇�~�代码以提供�~�译的通用性，但是大体代码如此。其中在函数开始处保留esp到ebp中，在函数结束恢复是�~�译器常用的�Ҏ��?/p>
　　从函数调用看�Q?�?依次被push�q�堆栈，而在函数中又通过相对于ebp(卛_��q�函数时的堆栈指针）的偏�U�量存取参数。函数结束后�Q�ret 8表示清理8个字节的堆栈�Q�函数自己恢复了堆栈�?/p>
　　
　　cdecl调用�U�定
　　cdecl调用�U�定又称为C调用�U�定�Q�是C语言�~�省的调用约定，它的定义语法是：

　　int function (int a ,int b)　//不加修饰��是C调用�U�定
　　int __cdecl function(int a,int b)//明确指出C调用�U�定

　　在写本文�Ӟ��Z��我的意料�Q�发现cdecl调用�U�定的参数压栈顺序是和stdcall是一��L��Q�参数首先由叛_��左压入堆栈。所不同的是�Q�函数本�w�不清理堆栈�Q�调用者负责清理堆栈。由于这�U�变化，C调用�U�定允许函数的参数的个数是不固定的，�q�也是C语言的一大特艌Ӏ�对于前面的function函数�Q��用cdecl后的汇编码变成：

　　调用�?br>　　push 1
　　push 2
　　call function
　　add　esp, 8　　　　　注意�Q�这里调用者在恢复堆栈

　　被调用函数_function�?br>　　push ebp　　　　　　保存ebp寄存器，该寄存器��用来保存堆栈的栈顶指针�Q�可以在函数退出时恢复
　　mov　ebp,esp　　　　保存堆栈指针
　　mov　eax,[ebp + 8H]　堆栈中ebp指向位置之前依次保存有ebp,cs:eip,a,b,ebp +8指向a
　　add　eax,[ebp + 0CH] 堆栈中ebp + 12处保存了b
　　mov　esp,ebp　　　　恢复esp
　　pop　ebp
　　ret　　　　　　　　　注意�Q�这里没有修改堆�?/p>
　　MSDN中说�Q�该修饰自动在函数名前加前导的下划线�Q�因此函数名在符可��中被记录为_function�Q�但是我在编译时��g��没有看到�q�种变化�?/p>
　　�׃��参数按照从右向左��序压栈�Q�因此最开始的参数在最接近栈顶的位�|�，因此当采用不定个数参数时�Q�第一个参数在栈中的位�|�肯定能知道�Q�只要不定的参数个数能够�Ҏ��W�一个后者后�l�的明确的参数确定下来，��可以��用不定参敎ͼ�例如对于CRT中的sprintf函数�Q�定义�ؓ�Q?
　　int sprintf(char* buffer,const char* format,...)
　　�׃��所有的不定参数都可以通过format��定�Q�因此��用不定个数的参数是没有问题的�?/p>
　　fastcall
　　fastcall调用�U�定和stdcall�c�M��Q�它意味着�Q?
　　
　　函数的第一个和�W�二个DWORD参数�Q�或者尺寸更��的�Q�通过ecx和edx传递，其他参数通过从右向左的顺序压�?
　　被调用函数清理堆�?
　　函数名修改规则同stdcall
　　其声明语法�ؓ�Q�int fastcall function(int a, int b)

　　thiscall
　　thiscall是唯一一个不能明��指明的函数修饰�Q�因为thiscall不是关键字。它是C++�c�L��员函数缺省的调用�U�定。由于成员函数调用还有一个this指针�Q�因此必��ȝ��D�处理，thiscall意味着�Q?

　　参数从右向左入栈
　　如果参数个数��定�Q�this指针通过ecx传递给被调用者；如果参数个数不确定，this指针在所有参数压栈后被压入堆栈。对参数个数不定的，调用者清理堆栈，否则函数自己清理堆栈��Z��说明�q�个调用�U�定�Q�定义如下类和��用代码：

　　class A
　　{
　　public:
　　　 int function1(int a,int b);
　　　 int function2(int a,...);
　　};

　　int A::function1 (int a,int b)
　　{
　　　 return a+b;
　　}

　　#include
　　int A::function2(int a,...)
　　{
　　　 va_list ap;
　　　 va_start(ap,a);
　　　 int i;
　　　 int result = 0;
　　　 for(i = 0 ; i < a ; i ++)
　　　 {
　　　　　result += va_arg(ap,int);
　　　 }
　　　 return result;
　　}

　　void callee()
　　{
　　　 A a;
　　　 a.function1(1, 2);
　　　 a.function2(3, 1, 2, 3);
　　}

callee函数被翻译成汇编后就变成�Q?
　　//函数function1调用
　　00401C1D　 push　　　　2
　　00401C1F　 push　　　　1
　　00401C21　 lea　　　　 ecx,[ebp-8]
　　00401C24　 call　　　　function1　　　　　注意�Q�这里this没有被入�?/p>
　　//函数function2调用
　　00401C29　 push　　　　3
　　00401C2B　 push　　　　2
　　00401C2D　 push　　　　1
　　00401C2F　 push　　　　3
　　00401C31　 lea　　　　 eax, [ebp-8]　　　 �q�里引入this指针
　　00401C34　 push　　　　eax
　　00401C35　 call　　　　function2
　　00401C3A　 add　　　　 esp, 14h
　　
　　可见�Q�对于参��C��数固定情况下�Q�它�c�M��于stdcall�Q�不定时则类似cdecl

　　naked call
　　�q�是一个很��见的调用约定，一般程序设计者徏议不要��用。编译器不会�l�这�U�函数增加初始化和清理代码，更特�D�的是，你不能用return�q�回�q�回��|��只能用插入汇�~�返回结果。这一般用于实模式驱动�E�序设计�Q�假讑֮�义一个求和的加法�E�序�Q�可以定义�ؓ�Q?

　　__declspec(naked) int　add(int a,int b)
　　{
　　　 __asm mov eax,a
　　　 __asm add eax,b
　　　 __asm ret
　　}

　　注意�Q�这个函数没有显式的return�q�回��|��q�回通过修改eax寄存器实玎ͼ�而且�q�退出函数的ret指��o都必��L��式插入。上面代码被��译成汇�~�以后变成：

　　mov eax,[ebp+8]
　　add eax,[ebp+12]
　　ret 8

　注意�q�个修饰是和__stdcall及cdecl�l�合使用的，前面是它和cdecl�l�合使用的代码，对于和stdcall�l�合的代码，则变成：

　　__declspec(naked) int __stdcall function(int a,int b)
　 {
　　　　__asm mov eax,a
　　　　__asm add eax,b
　　　　__asm ret 8　　　　//注意后面�?
　　}

　　至于�q�种函数被调用，则和普通的cdecl及stdcall调用函数一致�?/p>
　　函数调用�U�定��D��的常见问�?br>　　如果定义的约定和使用的约定不一��_��则将��D��堆栈被破坏，��D��严重问题�Q�下面是两种常见的问题：

　　函数原型声明和函��C��定义不一�?
　　DLL导入函数时声明了不同的函数约�?
　　以后者�ؓ例，假设我们在dll�U�声明了一�U�函��Cؓ�Q?

　　__declspec(dllexport) int func(int a,int b);//注意�Q�这里没有stdcall�Q��用的是cdecl
　　使用时代码�ؓ�Q?

　　typedef int (*WINAPI DLLFUNC)func(int a,int b);
　　hLib = LoadLibrary(...);

　　DLLFUNC func = (DLLFUNC)GetProcAddress(...)//�q�里修改了调用约�?br>　　result = func(1,2);//��D��错误

　　�׃��调用者没有理解WINAPI的含义错误的增加了这个修饎ͼ�上述代码必然��D��堆栈被破坏，MFC在编译时插入的checkesp函数��告诉你�Q�堆栈被破坏

沙漠里的�� 2009-05-15 17:30 发表评论

如何创徏自己的dll

沙漠里的�� — Tue, 28 Apr 2009 04:10:00 GMT

前几天有个朋友问道这个问题，�l�果因�ؓ以前从没搞过�q�个�Q�对vs2005也不熟悉�Q�竟�׃��2个小时才搞定�Q?img height=20 src="http://m.shnenglu.com/Emoticons/QQ/07.gif" width=20 border=0>�?/pre>
特地拿来与大家分享，希望能给像我�q�样的菜鸟们一些帮助，O(∩_∩)O

【第一步】创��q��dll

1.打开vs2005�Q�选择菜单【File-New-Project】，在弹出对话框中选择[Visual C++]下的[Win32]-[Win32 Console Application]�Q�输入工�E�名后确认�?/pre>
2.在弹出的对话框中选择[next]�Q�在Application Settiongs中选择Application type为Dll�Q�Additional options选择Empty project�Q�然后点Finish�?/pre>
�q�时��创��Z��一个空的可以生成dll文�g的工�E��?/pre>
3.在工�E�中��d��一个头文�g(�q�里为dll_test.h)�Q�在头文件中写入如下内容�Q?/pre>
1 #ifndef _DLL_TUTORIAL_H
2 #define _DLL-TUTORIAL_H
3
4 #include<iostream>
5
6 #if defined DLL_EXPORT
7   #define DECLDIR _declspec(dllexport)
8 #else
9   #define DECLDIR _declspec(dllimport)
10 #endif
11
12 extern "C"
13 {
14   DECLDIR int Add(int a, int b);
15   DECLDIR void Function(void);
16 }
17
18 #endif

�q�里要说明的是：

在VC中有两个�Ҏ��来导出dll中定义的函数�Q?/pre>
(1) 使用__declspec,�q�是一个Microsoft定义的关键字�?/pre>
(2) 创徏一个模板定义文�?Module-Definition File�Q�即.DEF)�?/pre>
�W�一�U�方法稍�E�比�W�二�U�方法简单，在这里我们��用的是第一�U�方法�?/pre>
__declspec(dllexport)函数的作用是导出函数�W�号到在你的Dll中的一个存储类里去�?/pre>
当下面一行被定义时我定义DECLDIR宏来�q�行�q�个函数�?/pre>
#define DLL_EXPORT

在此情况下你��导出函数Add(int a,int b)和Function().

4.创徏一个源文�g(名字为dll_test.cpp)�Q�内容如下：

1 #include <iostream>
2 #define DLL_EXPORT
3 #include "dll_test.h"
4
5 extern "C"
6 {
7         // 定义了（DLL中的�Q�所有函�?/span>
8     DECLDIR int Add( int a, int b )
9     {
10         return( a + b );
11     }
12
13     DECLDIR void Function( void )
14     {
15         std::cout << "DLL Called!" << std::endl;
16     }
17 }
18

【第二步】��用创建好的DLL

现在已经创徏了DLL�Q�那么如何在一个应用程序中使用它呢�Q?/pre>
当DLL被生成后�Q�它创徏了一�?dll文�g和一�?lib�Q�这两个都是使用dll旉��要用到的�?/pre>
在具体介�l�之前先看一下dll的链接方式�?/pre>
(1)隐式�q�接

�q�里有两个方法来载入一个DLL�Q�一个方法是只链接到.lib文�g�Q��ƈ��?dll文�g攑ֈ�要��用这个DLL的项目�\径中�?/pre>
因此�Q�创��Z��个新的空的Win32控制台项目�ƈ��d��一个源文�g。将我们创徏好的DLL攑օ�与新��目相同的目录下。同时我们还必须链接到dll_test.lib文�g�?/pre>
可以在项目属性中讄��Q�也可以在源�E�序中用下面的语句来链接�Q? #pragma comment(lib, "dll_test.lib")

最后，我们�q�要在新的win32控制台项目中包含前面的dll_test.h头文件。可以把�q�个头文件放到新建win32控制台项目的目录中然后在�E�序中加入语句： #include "dll_test.h"

新项目代码如下：

#include

#include "DLLTutorial.h"

int main()

{

Function();

std::cout<< Add(32, 56)<< endl;

return 0;

}

(2)昄��链接

�E�微复杂一点的加蝲DLL的方法需要用到函数指针和一些Windows函数。但是，通过�q�种载入DLL的方法，不需要DLL�?lib文�g或头文�g�Q�而只需要DLL卛_��?/pre>
下面列出一些代码：

/****************************************************************/ #include #include typedef int (*AddFunc)(int,int); typedef void (*FunctionFunc)();

int main()

{ AddFunc _AddFunc;

FunctionFunc _FunctionFunc;

HINSTANCE hInstLibrary = LoadLibrary("DLL_Tutorial.dll");

if (hInstLibrary == NULL) { FreeLibrary(hInstLibrary); }

_AddFunc = (AddFunc)GetProcAddress(hInstLibrary, "Add");

_FunctionFunc = (FunctionFunc)GetProcAddress(hInstLibrary, "Function");

if ((_AddFunc == NULL) || (_FunctionFunc == NULL)) { FreeLibrary(hInstLibrary); }

std::cout << _AddFunc(23, 43) << std::endl;

_FunctionFunc();

std::cin.get();

FreeLibrary(hInstLibrary);

return(1); } /*******************************************************************/

首先可以看到�Q�这里包括进了windows.h头文�Ӟ��同时��L��了对dll_test.h头文件的包含。原因很��单：因�ؓwindows.h包含了一些Windows函数�Q?/pre>
它也包含了一些将会用到的Windows特定变量。可以去掉DLL的头文�g�Q�因为当使用�q�个�Ҏ��载入DLL时�ƈ不需要其头文件�?/pre>
下面你会看到�Q�以下面形式的一��块古灵�_�怪的代码:

typedef int (*AddFunc)(int,int); typedef void (*FunctionFunc)();

�q�是函数指针。因��是一个关于DLL的自学指南，深入探究函数指针��出了本指南的范��_��因此�Q�现在我们只把它们当作DLL包含的函数的别名�?/pre>
我喜�Ƣ在��N��?#8220;Func”命名之�?int,int)部分是这个函数的参数部分�Q�比如，Add函数要获得两个整敎ͼ�因此�Q�你需要它�?/pre>
�Q�译注：�?int,int)部分�Q�作为函数指针的参数。Function函数没有参数�Q�因此你让它为空。main()部分中的前面两行是声明函数指针以使得你可

以认为它们等同于DLL内部的函数。我只是喜欢预先定义它们�?/pre>
一个HINSTANCE是一个Windows数据�c�d��Q�是一个实例的句柄�Q�在此情况下�Q�这个实例将是这个DLL。你可以通过使用函数LoadLibrary()获得DLL�?/pre>
实例�Q�它获得一个名�U�C��为参数�?/pre>
在调用LoadLibrary函数后，你必需查看一下函数返回是否成功。你可以通过��查HINSTANCE是否�{�于NULL�Q�在Windows.h中定义�ؓ0或Windows.h�?/pre>
含的一个头文�g�Q�来查看其是否成功。如果其�{�于NULL�Q�该句柄��是无效的，�q�且你必需释放�q�个库。换句话��_��你必需释放DLL获得的内存�?/pre>
如果函数�q�回成功�Q�你的HINSTANCE��包含了指向DLL的句柄。一旦你获得了指向DLL的句柄，你现在可以从DLL中重新获得函数�?/pre>
��Z��q�样作，你必��M��用函数GetProcAddress()�Q�它��DLL的句柄（你可以��用HINSTANCE�Q�和函数的名�U�C��为参数。你可以让函数指针获得由

GetProcAddress()�q�回的��|��同时你必需��GetProcAddress()转换为那个函数定义的函数指针。�D个例子，对于Add()函数�Q�你必需��GetProcAddress()

转换为AddFunc�Q�这��是它知道参数及�q�回值的原因。现在，最好先��定函数指针是否�{�于NULL以及它们拥有DLL的函数�?/pre>
�q�只是一个简单的if语句�Q�如果其中一个等于NULL�Q�你必需如前所�q�释攑ֺ�。一旦函数指针拥有DLL的函敎ͼ�你现在就可以使用它们了，但是�q�里有一�?/pre>
需要注意的地方�Q�你不能使用函数的实际名�U�ͼ�你必需使用函数指针来调用它们。在那以后，所有你需要做的是释放库如此而已�?/pre>
现在你知道了DLL的一些基本知识。你知道如何创徏它们�Q�你也知道如何用两种不同的方法链接它们。这里仍然有更多的东襉K��要我们学习，但我把它们留�l�你们自己探索了和更��的作者来写了�?

沙漠里的�� 2009-04-28 12:10 发表评论