編程修養(二)
6、if 語句對出錯的處理
———————————
我看見你說了,這有什么好說的。還是先看一段程序代碼吧。
if ( ch >= '0' && ch <= '9' ){
/* 正常處理代碼 */
}else{
/* 輸出錯誤信息 */
printf("error ......\n");
return ( FALSE );
}
這種結構很不好,特別是如果“正常處理代碼”很長時,對于這種情況,最好不要用else。先判斷錯誤,如:
if ( ch < '0' || ch > '9' ){
/* 輸出錯誤信息 */
printf("error ......\n");
return ( FALSE );
}
/* 正常處理代碼 */
......
這樣的結構,不是很清楚嗎?突出了錯誤的條件,讓別人在使用你的函數的時候,第一眼就能看到不合法的條件,于是就會更下意識的避免。
7、頭文件中的#ifndef
——————————
千萬不要忽略了頭件的中的#ifndef,這是一個很關鍵的東西。比如你有兩個C文件,這兩個C文件都include了同一個頭文件。而編譯時,這兩個C文件要一同編譯成一個可運行文件,于是問題來了,大量的聲明沖突。
還是把頭文件的內容都放在#ifndef和#endif中吧。不管你的頭文件會不會被多個文件引用,你都要加上這個。一般格式是這樣的:
#ifndef <標識>
#define <標識>
......
......
#endif
<標識>在理論上來說可以是自由命名的,但每個頭文件的這個“標識”都應該是唯一的。標識的命名規則一般是頭文件名全大寫,前后加下劃線,并把文件名中的“.”也變成下劃線,如:stdio.h
#ifndef _STDIO_H_
#define _STDIO_H_
......
#endif
(BTW:預編譯有多很有用的功能。你會用預編譯嗎?)
8、在堆上分配內存
—————————
可能許多人對內存分配上的“棧 stack”和“堆 heap”還不是很明白。包括一些科班出身的人也不明白這兩個概念。我不想過多的說這兩個東西。簡單的來講,stack上分配的內存系統自動釋放,heap上分配的內存,系統不釋放,哪怕程序退出,那一塊內存還是在那里。stack一般是靜態分配內存,heap上一般是動態分配內存。
由malloc系統函數分配的內存就是從堆上分配內存。從堆上分配的內存一定要自己釋放。用free釋放,不然就是術語——“內存泄露”(或是“內存漏洞”)—— Memory Leak。于是,系統的可分配內存會隨malloc越來越少,直到系統崩潰。還是來看看“棧內存”和“堆內存”的差別吧。
棧內存分配
—————
char*
AllocStrFromStack()
{
char pstr[100];
return pstr;
}
堆內存分配
—————
char*
AllocStrFromHeap(int len)
{
char *pstr;
if ( len <= 0 ) return NULL;
return ( char* ) malloc( len );
}
對于第一個函數,那塊pstr的內存在函數返回時就被系統釋放了。于是所返回的char*什么也沒有。而對于第二個函數,是從堆上分配內存,所以哪怕是程序退出時,也不釋放,所以第二個函數的返回的內存沒有問題,可以被使用。但一定要調用free釋放,不然就是Memory Leak!
在堆上分配內存很容易造成內存泄漏,這是C/C++的最大的“克星”,如果你的程序要穩定,那么就不要出現Memory Leak。所以,我還是要在這里千叮嚀萬囑付,在使用malloc系統函數(包括calloc,realloc)時千萬要小心。
記得有一個UNIX上的服務應用程序,大約有幾百的C文件編譯而成,運行測試良好,等使用時,每隔三個月系統就是down一次,搞得許多人焦頭爛額,查不出問題所在。只好,每隔兩個月人工手動重啟系統一次。出現這種問題就是Memery Leak在做怪了,在C/C++中這種問題總是會發生,所以你一定要小心。一個Rational的檢測工作——Purify,可以幫你測試你的程序有沒有內存泄漏。
我保證,做過許多C/C++的工程的程序員,都會對malloc或是new有些感冒。當你什么時候在使用malloc和new時,有一種輕度的緊張和惶恐的感覺時,你就具備了這方面的修養了。
對于malloc和free的操作有以下規則:
1) 配對使用,有一個malloc,就應該有一個free。(C++中對應為new和delete)
2) 盡量在同一層上使用,不要像上面那種,malloc在函數中,而free在函數外。最好在同一調用層上使用這兩個函數。
3) malloc分配的內存一定要初始化。free后的指針一定要設置為NULL。
注:雖然現在的操作系統(如:UNIX和Win2k/NT)都有進程內存跟蹤機制,也就是如果你有沒有釋放的內存,操作系統會幫你釋放。但操作系統依然不會釋放你程序中所有產生了Memory Leak的內存,所以,最好還是你自己來做這個工作。(有的時候不知不覺就出現Memory Leak了,而且在幾百萬行的代碼中找無異于海底撈針,Rational有一個工具叫Purify,可能很好的幫你檢查程序中的Memory Leak)
9、變量的初始化
————————
接上一條,變量一定要被初始化再使用。C/C++編譯器在這個方面不會像JAVA一樣幫你初始化,這一切都需要你自己來,如果你使用了沒有初始化的變量,結果未知。好的程序員從來都會在使用變量前初始化變量的。如:
1) 對malloc分配的內存進行memset清零操作。(可以使用calloc分配一塊全零的內存)
2) 對一些棧上分配的struct或數組進行初始化。(最好也是清零)
不過話又說回來了,初始化也會造成系統運行時間有一定的開銷,所以,也不要對所有的變量做初始化,這個也沒有意義。好的程序員知道哪些變量需要初始化,哪些則不需要。如:以下這種情況,則不需要。
char *pstr; /* 一個字符串 */
pstr = ( char* ) malloc( 50 );
if ( pstr == NULL ) exit(0);
strcpy( pstr, "Hello Wrold" );
但如果是下面一種情況,最好進行內存初始化。(指針是一個危險的東西,一定要初始化)
char **pstr; /* 一個字符串數組 */
pstr = ( char** ) malloc( 50 );
if ( pstr == NULL ) exit(0);
/* 讓數組中的指針都指向NULL */
memset( pstr, 0, 50*sizeof(char*) );
而對于全局變量,和靜態變量,一定要聲明時就初始化。因為你不知道它第一次會在哪里被使用。所以使用前初始這些變量是比較不現實的,一定要在聲明時就初始化它們。如:
Links *plnk = NULL; /* 對于全局變量plnk初始化為NULL */
10、h和c文件的使用
—————————
H文件和C文件怎么用呢?一般來說,H文件中是declare(聲明),C文件中是define(定義)。因為C文件要編譯成庫文件(Windows下是.obj/.lib,UNIX下是.o/.a),如果別人要使用你的函數,那么就要引用你的H文件,所以,H文件中一般是變量、宏定義、枚舉、結構和函數接口的聲明,就像一個接口說明文件一樣。而C文件則是實現細節。
H文件和C文件最大的用處就是聲明和實現分開。這個特性應該是公認的了,但我仍然看到有些人喜歡把函數寫在H文件中,這種習慣很不好。(如果是C++話,對于其模板函數,在VC中只有把實現和聲明都寫在一個文件中,因為VC不支持export關鍵字)。而且,如果在H文件中寫上函數的實現,你還得在makefile中把頭文件的依賴關系也加上去,這個就會讓你的makefile很不規范。
最后,有一個最需要注意的地方就是:帶初始化的全局變量不要放在H文件中!
例如有一個處理錯誤信息的結構:
char* errmsg[] = {
/* 0 */ "No error",
/* 1 */ "Open file error",
/* 2 */ "Failed in sending/receiving a message",
/* 3 */ "Bad arguments",
/* 4 */ "Memeroy is not enough",
/* 5 */ "Service is down; try later",
/* 6 */ "Unknow information",
/* 7 */ "A socket operation has failed",
/* 8 */ "Permission denied",
/* 9 */ "Bad configuration file format",
/* 10 */ "Communication time out",
......
......
};
請不要把這個東西放在頭文件中,因為如果你的這個頭文件被5個函數庫(.lib或是.a)所用到,于是他就被鏈接在這5個.lib或.a中,而如果你的一個程序用到了這5個函數庫中的函數,并且這些函數都用到了這個出錯信息數組。那么這份信息將有5個副本存在于你的執行文件中。如果你的這個errmsg很大的話,而且你用到的函數庫更多的話,你的執行文件也會變得很大。
正確的寫法應該把它寫到C文件中,然后在各個需要用到errmsg的C文件頭上加上 extern char* errmsg[]; 的外部聲明,讓編譯器在鏈接時才去管他,這樣一來,就只會有一個errmsg存在于執行文件中,而且,這樣做很利于封裝。
我曾遇到過的最瘋狂的事,就是在我的目標文件中,這個errmsg一共有112個副本,執行文件有8M左右。當我把errmsg放到C文件中,并為一千多個C文件加上了extern的聲明后,所有的函數庫文件尺寸都下降了20%左右,而我的執行文件只有5M了。一下子少了3M啊。
[ 備注 ]
—————
有朋友對我說,這個只是一個特例,因為,如果errmsg在執行文件中存在多個副本時,可以加快程序運行速度,理由是errmsg的多個復本會讓系統的內存換頁降低,達到效率提升。像我們這里所說的errmsg只有一份,當某函數要用errmsg時,如果內存隔得比較遠,會產生換頁,反而效率不高。
這個說法不無道理,但是一般而言,對于一個比較大的系統,errmsg是比較大的,所以產生副本導致執行文件尺寸變大,不僅增加了系統裝載時間,也會讓一個程序在內存中占更多的頁面。而對于errmsg這樣數據,一般來說,在系統運行時不會經常用到,所以還是產生的內存換頁也就不算頻繁。權衡之下,還是只有一份errmsg的效率高。即便是像logmsg這樣頻繁使用的的數據,操作系統的內存調度算法會讓這樣的頻繁使用的頁面常駐于內存,所以也就不會出現內存換頁問題了。
11、出錯信息的處理
—————————
你會處理出錯信息嗎?哦,它并不是簡單的輸出。看下面的示例:
if ( p == NULL ){
printf ( "ERR: The pointer is NULL\n" );
}
告別學生時代的編程吧。這種編程很不利于維護和管理,出錯信息或是提示信息,應該統一處理,而不是像上面這樣,寫成一個“硬編碼”。第10條對這方面的處理做了一部分說明。如果要管理錯誤信息,那就要有以下的處理:
/* 聲明出錯代碼 */
#define ERR_NO_ERROR 0 /* No error */
#define ERR_OPEN_FILE 1 /* Open file error */
#define ERR_SEND_MESG 2 /* sending a message error */
#define ERR_BAD_ARGS 3 /* Bad arguments */
#define ERR_MEM_NONE 4 /* Memeroy is not enough */
#define ERR_SERV_DOWN 5 /* Service down try later */
#define ERR_UNKNOW_INFO 6 /* Unknow information */
#define ERR_SOCKET_ERR 7 /* Socket operation failed */
#define ERR_PERMISSION 8 /* Permission denied */
#define ERR_BAD_formAT 9 /* Bad configuration file */
#define ERR_TIME_OUT 10 /* Communication time out */
/* 聲明出錯信息 */
char* errmsg[] = {
/* 0 */ "No error",
/* 1 */ "Open file error",
/* 2 */ "Failed in sending/receiving a message",
/* 3 */ "Bad arguments",
/* 4 */ "Memeroy is not enough",
/* 5 */ "Service is down; try later",
/* 6 */ "Unknow information",
/* 7 */ "A socket operation has failed",
/* 8 */ "Permission denied",
/* 9 */ "Bad configuration file format",
/* 10 */ "Communication time out",
};
/* 聲明錯誤代碼全局變量 */
long errno = 0;
/* 打印出錯信息函數 */
void perror( char* info)
{
if ( info ){
printf("%s: %s\n", info, errmsg[errno] );
return;
}
printf("Error: %s\n", errmsg[errno] );
}
這個基本上是ANSI的錯誤處理實現細節了,于是當你程序中有錯誤時你就可以這樣處理:
bool CheckPermission( char* userName )
{
if ( strcpy(userName, "root") != 0 ){
errno = ERR_PERMISSION_DENIED;
return (FALSE);
}
...
}
main()
{
...
if (! CheckPermission( username ) ){
perror("main()");
}
...
}
一個即有共性,也有個性的錯誤信息處理,這樣做有利同種錯誤出一樣的信息,統一用戶界面,而不會因為文件打開失敗,A程序員出一個信息,B程序員又出一個信息。而且這樣做,非常容易維護。代碼也易讀。
當然,物極必反,也沒有必要把所有的輸出都放到errmsg中,抽取比較重要的出錯信息或是提示信息是其關鍵,但即使這樣,這也包括了大多數的信息。
12、常用函數和循環語句中的被計算量
—————————————————
看一下下面這個例子:
for( i=0; i<1000; i++ ){
GetLocalHostName( hostname );
...
}
GetLocalHostName的意思是取得當前計算機名,在循環體中,它會被調用1000次啊。這是多么的沒有效率的事啊。應該把這個函數拿到循環體外,這樣只調用一次,效率得到了很大的提高。雖然,我們的編譯器會進行優化,會把循環體內的不變的東西拿到循環外面,但是,你相信所有編譯器會知道哪些是不變的嗎?我覺得編譯器不可靠。最好還是自己動手吧。
同樣,對于常用函數中的不變量,如:
GetLocalHostName(char* name)
{
char funcName[] = "GetLocalHostName";
sys_log( "%s begin......", funcName );
...
sys_log( "%s end......", funcName );
}
如果這是一個經常調用的函數,每次調用時都要對funcName進行分配內存,這個開銷很大啊。把這個變量聲明成static吧,當函數再次被調用時,就會省去了分配內存的開銷,執行效率也很好。
13、函數名和變量名的命名
————————————
我看到許多程序對變量名和函數名的取名很草率,特別是變量名,什么a,b,c,aa,bb,cc,還有什么flag1,flag2, cnt1, cnt2,這同樣是一種沒有“修養”的行為。即便加上好的注釋。好的變量名或是函數名,我認為應該有以下的規則:
1) 直觀并且可以拼讀,可望文知意,不必“解碼”。
2) 名字的長度應該即要最短的長度,也要能最大限度的表達其含義。
3) 不要全部大寫,也不要全部小寫,應該大小寫都有,如:GetLocalHostName 或是 UserAccount。
4) 可以簡寫,但簡寫得要讓人明白,如:ErrorCode -> ErrCode, ServerListener -> ServLisner,UserAccount -> UsrAcct 等。
5) 為了避免全局函數和變量名字沖突,可以加上一些前綴,一般以模塊簡稱做為前綴。
6) 全局變量統一加一個前綴或是后綴,讓人一看到這個變量就知道是全局的。
7) 用匈牙利命名法命名函數參數,局部變量。但還是要堅持“望文生意”的原則。
8) 與標準庫(如:STL)或開發庫(如:MFC)的命名風格保持一致。

文章來源:
http://blog.donews.com/xzwenlan/archive/2006/01/10/689576.aspx