国产一级精品aaaaa看,欧美bbbxxxxx,国产欧美精品

整理：Jims of 肥肥世家

<jims.yang@gmail.com>

第一次發(fā)布時(shí)間:2004年8月6日

1. awk簡(jiǎn)介

awk是一種編程語(yǔ)言，用于在linux/unix下對(duì)文本和數(shù)據(jù)進(jìn)行處理。數(shù)據(jù)可以來(lái)自標(biāo)準(zhǔn)輸入、一個(gè)或多個(gè)文件，或其它命令的輸出。它支持用戶自定義函數(shù)和動(dòng)態(tài)正則表達(dá)式等先進(jìn)功能，是linux/unix下的一個(gè)強(qiáng)大編程工具。它在命令行中使用，但更多是作為腳本來(lái)使用。awk的處理文本和數(shù)據(jù)的方式是這樣的，它逐行掃描文件，從第一行到最后一行，尋找匹配的特定模式的行，并在這些行上進(jìn)行你想要的操作。如果沒(méi)有指定處理動(dòng)作，則把匹配的行顯示到標(biāo)準(zhǔn)輸出(屏幕)，如果沒(méi)有指定模式，則所有被操作所指定的行都被處理。awk分別代表其作者姓氏的第一個(gè)字母。因?yàn)樗淖髡呤侨齻€(gè)人，分別是Alfred Aho、Brian Kernighan、Peter Weinberger。gawk是awk的GNU版本，它提供了Bell實(shí)驗(yàn)室和GNU的一些擴(kuò)展。下面介紹的awk是以GUN的gawk為例的，在linux系統(tǒng)中已把a(bǔ)wk鏈接到gawk，所以下面全部以awk進(jìn)行介紹。

2. awk命令格式和選項(xiàng)

2.1. awk的語(yǔ)法有兩種形式

awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)

2.2. 命令選項(xiàng)

-F fs or --field-separator fs: 指定輸入文件折分隔符，fs是一個(gè)字符串或者是一個(gè)正則表達(dá)式，如-F:。
-v var=value or --asign var=value: 賦值一個(gè)用戶定義變量。
-f scripfile or --file scriptfile: 從腳本文件中讀取awk命令。
-mf nnn and -mr nnn: 對(duì)nnn值設(shè)置內(nèi)在限制，-mf選項(xiàng)限制分配給nnn的最大塊數(shù)目；-mr選項(xiàng)限制記錄的最大數(shù)目。這兩個(gè)功能是Bell實(shí)驗(yàn)室版awk的擴(kuò)展功能，在標(biāo)準(zhǔn)awk中不適用。
-W compact or --compat, -W traditional or --traditional: 在兼容模式下運(yùn)行awk。所以gawk的行為和標(biāo)準(zhǔn)的awk完全一樣，所有的awk擴(kuò)展都被忽略。
-W copyleft or --copyleft, -W copyright or --copyright: 打印簡(jiǎn)短的版權(quán)信息。
-W help or --help, -W usage or --usage: 打印全部awk選項(xiàng)和每個(gè)選項(xiàng)的簡(jiǎn)短說(shuō)明。
-W lint or --lint: 打印不能向傳統(tǒng)unix平臺(tái)移植的結(jié)構(gòu)的警告。
-W lint-old or --lint-old: 打印關(guān)于不能向傳統(tǒng)unix平臺(tái)移植的結(jié)構(gòu)的警告。
-W posix: 打開(kāi)兼容模式。但有以下限制，不識(shí)別：\x、函數(shù)關(guān)鍵字、func、換碼序列以及當(dāng)fs是一個(gè)空格時(shí)，將新行作為一個(gè)域分隔符；操作符**和**=不能代替^和^=；fflush無(wú)效。
-W re-interval or --re-inerval: 允許間隔正則表達(dá)式的使用，參考(grep中的Posix字符類)，如括號(hào)表達(dá)式[[:alpha:]]。
-W source program-text or --source program-text: 使用program-text作為源代碼，可與-f命令混用。
-W version or --version: 打印bug報(bào)告信息的版本。

3. 模式和操作

awk腳本是由模式和操作組成的：: pattern {action} 如$ awk '/root/' test，或$ awk '$3 < 100' test。

兩者是可選的，如果沒(méi)有模式，則action應(yīng)用到全部記錄，如果沒(méi)有action，則輸出匹配全部記錄。默認(rèn)情況下，每一個(gè)輸入行都是一條記錄，但用戶可通過(guò)RS變量指定不同的分隔符進(jìn)行分隔。

3.1. 模式

模式可以是以下任意一個(gè)：

/正則表達(dá)式/：使用通配符的擴(kuò)展集。
關(guān)系表達(dá)式：可以用下面運(yùn)算符表中的關(guān)系運(yùn)算符進(jìn)行操作，可以是字符串或數(shù)字的比較，如$2>%1選擇第二個(gè)字段比第一個(gè)字段長(zhǎng)的行。
模式匹配表達(dá)式：用運(yùn)算符~(匹配)和~!(不匹配)。
模式，模式：指定一個(gè)行的范圍。該語(yǔ)法不能包括BEGIN和END模式。
BEGIN：讓用戶指定在第一條輸入記錄被處理之前所發(fā)生的動(dòng)作，通常可在這里設(shè)置全局變量。
END：讓用戶在最后一條輸入記錄被讀取之后發(fā)生的動(dòng)作。

3.2. 操作

操作由一人或多個(gè)命令、函數(shù)、表達(dá)式組成，之間由換行符或分號(hào)隔開(kāi)，并位于大括號(hào)內(nèi)。主要有四部份：

變量或數(shù)組賦值
輸出命令
內(nèi)置函數(shù)
控制流命令

4. awk的環(huán)境變量

Table 1. awk的環(huán)境變量

變量	描述
$n	當(dāng)前記錄的第n個(gè)字段，字段間由FS分隔。
$0	完整的輸入記錄。
ARGC	命令行參數(shù)的數(shù)目。
ARGIND	命令行中當(dāng)前文件的位置(從0開(kāi)始算)。
ARGV	包含命令行參數(shù)的數(shù)組。
CONVFMT	數(shù)字轉(zhuǎn)換格式(默認(rèn)值為%.6g)
ENVIRON	環(huán)境變量關(guān)聯(lián)數(shù)組。
ERRNO	最后一個(gè)系統(tǒng)錯(cuò)誤的描述。
FIELDWIDTHS	字段寬度列表(用空格鍵分隔)。
FILENAME	當(dāng)前文件名。
FNR	同NR，但相對(duì)于當(dāng)前文件。
FS	字段分隔符(默認(rèn)是任何空格)。
IGNORECASE	如果為真，則進(jìn)行忽略大小寫(xiě)的匹配。
NF	當(dāng)前記錄中的字段數(shù)。
NR	當(dāng)前記錄數(shù)。
OFMT	數(shù)字的輸出格式(默認(rèn)值是%.6g)。
OFS	輸出字段分隔符(默認(rèn)值是一個(gè)空格)。
ORS	輸出記錄分隔符(默認(rèn)值是一個(gè)換行符)。
RLENGTH	由match函數(shù)所匹配的字符串的長(zhǎng)度。
RS	記錄分隔符(默認(rèn)是一個(gè)換行符)。
RSTART	由match函數(shù)所匹配的字符串的第一個(gè)位置。
SUBSEP	數(shù)組下標(biāo)分隔符(默認(rèn)值是\034)。

5. awk運(yùn)算符

Table 2. 運(yùn)算符

運(yùn)算符	描述
= += -= = /= %= ^= *=	賦值
?:	C條件表達(dá)式
\|\|	邏輯或
&&	邏輯與
~ ~!	匹配正則表達(dá)式和不匹配正則表達(dá)式
< <= > >= != ==	關(guān)系運(yùn)算符
空格	連接
+ -	加，減
* / &	乘，除與求余
+ - !	一元加，減和邏輯非
^ ***	求冪
++ --	增加或減少，作為前綴或后綴
$	字段引用
in	數(shù)組成員

6. 記錄和域

6.1. 記錄

awk把每一個(gè)以換行符結(jié)束的行稱為一個(gè)記錄。

記錄分隔符：默認(rèn)的輸入和輸出的分隔符都是回車(chē)，保存在內(nèi)建變量ORS和RS中。

$0變量：它指的是整條記錄。如$ awk '{print $0}' test將輸出test文件中的所有記錄。

變量NR：一個(gè)計(jì)數(shù)器，每處理完一條記錄，NR的值就增加1。如$ awk '{print NR,$0}' test將輸出test文件中所有記錄，并在記錄前顯示記錄號(hào)。

6.2. 域

記錄中每個(gè)單詞稱做“域”，默認(rèn)情況下以空格或tab分隔。awk可跟蹤域的個(gè)數(shù)，并在內(nèi)建變量NF中保存該值。如$ awk '{print $1,$3}' test將打印test文件中第一和第三個(gè)以空格分開(kāi)的列(域)。

6.3. 域分隔符

內(nèi)建變量FS保存輸入域分隔符的值，默認(rèn)是空格或tab。我們可以通過(guò)-F命令行選項(xiàng)修改FS的值。如$ awk -F: '{print $1,$5}' test將打印以冒號(hào)為分隔符的第一，第五列的內(nèi)容。

可以同時(shí)使用多個(gè)域分隔符，這時(shí)應(yīng)該把分隔符寫(xiě)成放到方括號(hào)中，如$awk -F'[:\t]' '{print $1,$3}' test，表示以空格、冒號(hào)和tab作為分隔符。

輸出域的分隔符默認(rèn)是一個(gè)空格，保存在OFS中。

7. gawk專用正則表達(dá)式元字符

一般通用的元字符集就不講了，可參考我的Sed和Grep學(xué)習(xí)筆記。以下幾個(gè)是gawk專用的，不適合unix版本的awk。

\Y: 匹配一個(gè)單詞開(kāi)頭或者末尾的空字符串。
\B: 匹配單詞內(nèi)的空字符串。
\<: 匹配一個(gè)單詞的開(kāi)頭的空字符串，錨定開(kāi)始。
\>: 匹配一個(gè)單詞的末尾的空字符串，錨定末尾。
\w: 匹配一個(gè)字母數(shù)字組成的單詞。
\W: 匹配一個(gè)非字母數(shù)字組成的單詞。
\‘: 匹配字符串開(kāi)頭的一個(gè)空字符串。
\': 匹配字符串末尾的一個(gè)空字符串。

8. POSIX字符集

可參考我的Grep學(xué)習(xí)筆記

9. 匹配操作符(~)

用來(lái)在記錄或者域內(nèi)匹配正則表達(dá)式。如$ awk '$1 ~/^root/' test將顯示test文件第一列中以root開(kāi)頭的行。

10. 比較表達(dá)式

conditional expression1 ? expression2: expression3，例如：$ awk '{max = {$1 > $3} ? $1: $3: print max}' test。如果第一個(gè)域大于第三個(gè)域，$1就賦值給max，否則$3就賦值給max。

$ awk '$1 + $2 < 100' test。如果第一和第二個(gè)域相加大于100，則打印這些行。

$ awk '$1 > 5 && $2 < 10' test,如果第一個(gè)域大于5，并且第二個(gè)域小于10，則打印這些行。

11. 范圍模板

范圍模板匹配從第一個(gè)模板的第一次出現(xiàn)到第二個(gè)模板的第一次出現(xiàn)之間所有行。如果有一個(gè)模板沒(méi)出現(xiàn)，則匹配到開(kāi)頭或末尾。如$ awk '/root/,/mysql/' test將顯示root第一次出現(xiàn)到mysql第一次出現(xiàn)之間的所有行。

12. 一個(gè)驗(yàn)證passwd文件有效性的例子

$ cat /etc/passwd | awk -F: '\
NF != 7{\
printf("line %d,does not have 7 fields:%s\n",NR,$0)}\
$1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and numeric user id:%d: %s\n,NR,$0)}\
$2 == "*" {printf("line %d, no password: %s\n",NR,$0)}'

	cat把結(jié)果輸出給awk，awk把域之間的分隔符設(shè)為冒號(hào)。
	如果域的數(shù)量(NF)不等于7，就執(zhí)行下面的程序。
	printf打印字符串"line ?? does not have 7 fields"，并顯示該條記錄。
	如果第一個(gè)域沒(méi)有包含任何字母和數(shù)字，printf打印“no alpha and numeric user id" ，并顯示記錄數(shù)和記錄。
	如果第二個(gè)域是一個(gè)星號(hào)，就打印字符串“no passwd”，緊跟著顯示記錄數(shù)和記錄本身。

13. 幾個(gè)實(shí)例

$ awk '{print $3}' test-----截取第三域(列)的內(nèi)容。
$ awk '/^(no|so)/' test-----打印所有以模式no或so開(kāi)頭的行。
$ awk '/^[ns]/{print $1}' test-----如果記錄以n或s開(kāi)頭，就打印這個(gè)記錄。
$ awk '$1 ~/[0-9][0-9]$/(print $1}' test-----如果第一個(gè)域以兩個(gè)數(shù)字結(jié)束就打印這個(gè)記錄。
$ awk '$1 == 100 || $2 < 50' test-----如果第一個(gè)或等于100或者第二個(gè)域小于50，則打印該行。
$ awk '$1 != 10' test-----如果第一個(gè)域不等于10就打印該行。
$ awk '/test/{print $1 + 10}' test-----如果記錄包含正則表達(dá)式test，則第一個(gè)域加10并打印出來(lái)。
$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test-----如果第一個(gè)域大于5則打印問(wèn)號(hào)后面的表達(dá)式值，否則打印冒號(hào)后面的表達(dá)式值。
$ awk '/^root/,/^mysql/' test----打印以正則表達(dá)式root開(kāi)頭的記錄到以正則表達(dá)式mysql開(kāi)頭的記錄范圍內(nèi)的所有記錄。如果找到一個(gè)新的正則表達(dá)式root開(kāi)頭的記錄，則繼續(xù)打印直到下一個(gè)以正則表達(dá)式mysql開(kāi)頭的記錄為止，或到文件末尾。

14. awk編程

14.1. 變量

在awk中，變量不需要定義就可以直接使用，變量類型可以是數(shù)字或字符串。
賦值格式：Variable = expression，如$ awk '$1 ~/test/{count = $2 + $3; print count}' test,上式的作用是,awk先掃描第一個(gè)域，一旦test匹配，就把第二個(gè)域的值加上第三個(gè)域的值，并把結(jié)果賦值給變量count，最后打印出來(lái)。
awk可以在命令行中給變量賦值，然后將這個(gè)變量傳輸給awk腳本。如$ awk -F: -f awkscript month=4 year=2004 test，上式的month和year都是自定義變量，分別被賦值為4和2004。在awk腳本中，這些變量使用起來(lái)就象是在腳本中建立的一樣。注意，如果參數(shù)前面出現(xiàn)test，那么在BEGIN語(yǔ)句中的變量就不能被使用。
域變量也可被賦值和修改，如$ awk '{$2 = 100 + $1; print }' test,上式表示，如果第二個(gè)域不存在，awk將計(jì)算表達(dá)式100加$1的值，并將其賦值給$2，如果第二個(gè)域存在，則用表達(dá)式的值覆蓋$2原來(lái)的值。再例如：$ awk '$1 == "root"{$1 ="test";print}' test，如果第一個(gè)域的值是“root”，則把它賦值為“test”，注意，字符串一定要用雙引號(hào)。
內(nèi)建變量的使用。變量列表在前面已列出，現(xiàn)在舉個(gè)例子說(shuō)明一下。$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test，把IGNORECASE設(shè)為1代表忽略大小寫(xiě)，打印第一個(gè)域是mary的記錄數(shù)、第一個(gè)域、第二個(gè)域和最后一個(gè)域。

14.2. BEGIN模塊

BEGIN模塊后緊跟著動(dòng)作塊，這個(gè)動(dòng)作塊在awk處理任何輸入文件之前執(zhí)行。所以它可以在沒(méi)有任何輸入的情況下進(jìn)行測(cè)試。它通常用來(lái)改變內(nèi)建變量的值，如OFS,RS和FS等，以及打印標(biāo)題。如：$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test。上式表示，在處理輸入文件以前，域分隔符(FS)被設(shè)為冒號(hào)，輸出文件分隔符(OFS)被設(shè)置為制表符，輸出記錄分隔符(ORS)被設(shè)置為兩個(gè)換行符。$ awk 'BEGIN{print "TITLE TEST"}只打印標(biāo)題。

14.3. END模塊

END不匹配任何的輸入文件，但是執(zhí)行動(dòng)作塊中的所有動(dòng)作，它在整個(gè)輸入文件處理完成后被執(zhí)行。如$ awk 'END{print "The number of records is" NR}' test，上式將打印所有被處理的記錄數(shù)。

14.4. 重定向和管道

awk可使用shell的重定向符進(jìn)行重定向輸出，如：$ awk '$1 = 100 {print $1 > "output_file" }' test。上式表示如果第一個(gè)域的值等于100，則把它輸出到output_file中。也可以用>>來(lái)重定向輸出，但不清空文件，只做追加操作。
輸出重定向需用到getline函數(shù)。getline從標(biāo)準(zhǔn)輸入、管道或者當(dāng)前正在處理的文件之外的其他輸入文件獲得輸入。它負(fù)責(zé)從輸入獲得下一行的內(nèi)容，并給NF,NR和FNR等內(nèi)建變量賦值。如果得到一條記錄，getline函數(shù)返回1，如果到達(dá)文件的末尾就返回0，如果出現(xiàn)錯(cuò)誤，例如打開(kāi)文件失敗，就返回-1。如：

$ awk 'BEGIN{ "date" | getline d; print d}' test。執(zhí)行l(wèi)inux的date命令，并通過(guò)管道輸出給getline，然后再把輸出賦值給自定義變量d，并打印它。

$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test。執(zhí)行shell的date命令，并通過(guò)管道輸出給getline，然后getline從管道中讀取并將輸入賦值給d，split函數(shù)把變量d轉(zhuǎn)化成數(shù)組mon，然后打印數(shù)組mon的第二個(gè)元素。

$ awk 'BEGIN{while( "ls" | getline) print}'，命令ls的輸出傳遞給geline作為輸入，循環(huán)使getline從ls的輸出中讀取一行，并把它打印到屏幕。這里沒(méi)有輸入文件，因?yàn)锽EGIN塊在打開(kāi)輸入文件前執(zhí)行，所以可以忽略輸入文件。

$ awk 'BEGIN{printf "What is your name?"; getline name < "/dev/tty" } $1 ~name {print "Found" name on line ", NR "."} END{print "See you," name "."} test。在屏幕上打印”What is your name?",并等待用戶應(yīng)答。當(dāng)一行輸入完畢后，getline函數(shù)從終端接收該行輸入，并把它儲(chǔ)存在自定義變量name中。如果第一個(gè)域匹配變量name的值，print函數(shù)就被執(zhí)行，END塊打印See you和name的值。

$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'。awk將逐行讀取文件/etc/passwd的內(nèi)容，在到達(dá)文件末尾前，計(jì)數(shù)器lc一直增加，當(dāng)?shù)侥┪矔r(shí)，打印lc的值。注意，如果文件不存在，getline返回-1，如果到達(dá)文件的末尾就返回0，如果讀到一行，就返回1，所以命令 while (getline < "/etc/passwd")在文件不存在的情況下將陷入無(wú)限循環(huán)，因?yàn)榉祷?1表示邏輯真。
可以在awk中打開(kāi)一個(gè)管道，且同一時(shí)刻只能有一個(gè)管道存在。通過(guò)close()可關(guān)閉管道。如：$ awk '{print $1, $2 | "sort" }' test END {close("sort")}。awd把print語(yǔ)句的輸出通過(guò)管道作為linux命令sort的輸入,END塊執(zhí)行關(guān)閉管道操作。
system函數(shù)可以在awk中執(zhí)行l(wèi)inux的命令。如：$ awk 'BEGIN{system("clear")'。
fflush函數(shù)用以刷新輸出緩沖區(qū)，如果沒(méi)有參數(shù)，就刷新標(biāo)準(zhǔn)輸出的緩沖區(qū)，如果以空字符串為參數(shù)，如fflush(""),則刷新所有文件和管道的輸出緩沖區(qū)。

14.5. 條件語(yǔ)句

awk中的條件語(yǔ)句是從C語(yǔ)言中借鑒過(guò)來(lái)的，可控制程序的流程。

14.5.1. if語(yǔ)句

格式：
{if (expression){
statement; statement; ...
}
}

$ awk '{if ($1 <$2) print $2 "too high"}' test。如果第一個(gè)域小于第二個(gè)域則打印。

$ awk '{if ($1 < $2) {count++; print "ok"}}' test.如果第一個(gè)域小于第二個(gè)域，則count加一，并打印ok。

14.5.2. if/else語(yǔ)句，用于雙重判斷。

格式：
{if (expression){
statement; statement; ...
}
else{
statement; statement; ...
}
}

$ awk '{if ($1 > 100) print $1 "bad" ; else print "ok"}' test。如果$1大于100則打印$1 bad,否則打印ok。

$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}' test。如果$1大于100，則count加一，并打印$1，否則count減一，并打印$1。

14.5.3. if/else else if語(yǔ)句，用于多重判斷。

格式：
{if (expression){
statement; statement; ...
}
else if (expression){
statement; statement; ...
}
else if (expression){
statement; statement; ...
}
else {
statement; statement; ...
}
}

14.6. 循環(huán)

awk有三種循環(huán):while循環(huán)；for循環(huán)；special for循環(huán)。
$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test。變量的初始值為1，若i小于可等于NF(記錄中域的個(gè)數(shù)),則執(zhí)行打印語(yǔ)句，且i增加1。直到i的值大于NF.
$ awk '{for (i = 1; i<NF; i++) print NF,$i}' test。作用同上。
breadkcontinue語(yǔ)句。break用于在滿足條件的情況下跳出循環(huán)；continue用于在滿足條件的情況下忽略后面的語(yǔ)句，直接返回循環(huán)的頂端。如：
```
{for ( x=3; x<=NF; x++)
    if ($x<0){print "Bottomed out!"; break}}
    {for ( x=3; x<=NF; x++)
    if ($x==0){print "Get next item"; continue}}
    
```
next語(yǔ)句從輸入文件中讀取一行，然后從頭開(kāi)始執(zhí)行awk腳本。如：
```
{if ($1 ~/test/){next}
    else {print}
    }
    
```
exit語(yǔ)句用于結(jié)束awk程序，但不會(huì)略過(guò)END塊。退出狀態(tài)為0代表成功，非零值表示出錯(cuò)。

14.7. 數(shù)組

awk中的數(shù)組的下標(biāo)可以是數(shù)字和字母，稱為關(guān)聯(lián)數(shù)組。

14.7.1. 下標(biāo)與關(guān)聯(lián)數(shù)組

用變量作為數(shù)組下標(biāo)。如：$ awk {name[x++]=$2};END{for(i=0;i<NR;i++) print i,name[i]}' test。數(shù)組name中的下標(biāo)是一個(gè)自定義變量x，awk初始化x的值為0，在每次使用后增加1。第二個(gè)域的值被賦給name數(shù)組的各個(gè)元素。在END模塊中，for循環(huán)被用于循環(huán)整個(gè)數(shù)組，從下標(biāo)為0的元素開(kāi)始，打印那些存儲(chǔ)在數(shù)組中的值。因?yàn)橄聵?biāo)是關(guān)健字，所以它不一定從0開(kāi)始，可以從任何值開(kāi)始。
special for循環(huán)用于讀取關(guān)聯(lián)數(shù)組中的元素。格式如下：
```
{for (item in arrayname){
    print arrayname[item]
    }
    }
    
```
$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test。打印有值的數(shù)組元素。打印的順序是隨機(jī)的。
用字符串作為下標(biāo)。如：count["test"]
用域值作為數(shù)組的下標(biāo)。一種新的for循環(huán)方式，for (index_value in array) statement。如:$ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test。該語(yǔ)句將打印$1中字符串出現(xiàn)的次數(shù)。它首先以第一個(gè)域作數(shù)組count的下標(biāo)，第一個(gè)域變化，索引就變化。
delete函數(shù)用于刪除數(shù)組元素。如：$ awk '{line[x++]=$1} END{for(x in line) delete(line[x])}' test。分配給數(shù)組line的是第一個(gè)域的值，所有記錄處理完成后，special for循環(huán)將刪除每一個(gè)元素。

14.8. awk的內(nèi)建函數(shù)

14.8.1. 字符串函數(shù)

sub函數(shù)匹配記錄中最大、最靠左邊的子字符串的正則表達(dá)式，并用替換字符串替換這些字符串。如果沒(méi)有指定目標(biāo)字符串就默認(rèn)使用整個(gè)記錄。替換只發(fā)生在第一次匹配的時(shí)候。格式如下：
```
            sub (regular expression, substitution string):
    sub (regular expression, substitution string, target string)
    
```
實(shí)例：
```
            $ awk '{ sub(/test/, "mytest"); print }' testfile
    $ awk '{ sub(/test/, "mytest"); $1}; print }' testfile
    
```
第一個(gè)例子在整個(gè)記錄中匹配，替換只發(fā)生在第一次匹配發(fā)生的時(shí)候。如要在整個(gè)文件中進(jìn)行匹配需要用到gsub

第二個(gè)例子在整個(gè)記錄的第一個(gè)域中進(jìn)行匹配，替換只發(fā)生在第一次匹配發(fā)生的時(shí)候。
gsub函數(shù)作用如sub，但它在整個(gè)文檔中進(jìn)行匹配。格式如下：
```
            gsub (regular expression, substitution string)
    gsub (regular expression, substitution string, target string)
    
```
實(shí)例：
```
            $ awk '{ gsub(/test/, "mytest"); print }' testfile
    $ awk '{ gsub(/test/, "mytest"), $1 }; print }' testfile
    
```
第一個(gè)例子在整個(gè)文檔中匹配test，匹配的都被替換成mytest。

第二個(gè)例子在整個(gè)文檔的第一個(gè)域中匹配，所有匹配的都被替換成mytest。
index函數(shù)返回子字符串第一次被匹配的位置，偏移量從位置1開(kāi)始。格式如下：
```
          index(string, substring)
    
```
實(shí)例：
```
            $ awk '{ print index("test", "mytest") }' testfile
    
```
實(shí)例返回test在mytest的位置，結(jié)果應(yīng)該是3。
length函數(shù)返回記錄的字符數(shù)。格式如下：
```
            length( string )
    length
    
```
實(shí)例：
```
            $ awk '{ print length( "test" ) }'
    $ awk '{ print length }' testfile
    
```
第一個(gè)實(shí)例返回test字符串的長(zhǎng)度。

第二個(gè)實(shí)例返回testfile文件中第條記錄的字符數(shù)。
substr函數(shù)返回從位置1開(kāi)始的子字符串，如果指定長(zhǎng)度超過(guò)實(shí)際長(zhǎng)度，就返回整個(gè)字符串。格式如下：
```
            substr( string, starting position )
    substr( string, starting position, length of string )
    
```
實(shí)例：
```
            $ awk '{ print substr( "hello world", 7,11 ) }'
    
```
上例截取了world子字符串。
match函數(shù)返回在字符串中正則表達(dá)式位置的索引，如果找不到指定的正則表達(dá)式則返回0。match函數(shù)會(huì)設(shè)置內(nèi)建變量RSTART為字符串中子字符串的開(kāi)始位置，RLENGTH為到子字符串末尾的字符個(gè)數(shù)。substr可利于這些變量來(lái)截取字符串。函數(shù)格式如下：
```
            match( string, regular expression )
    
```
實(shí)例：
```
            $ awk '{start=match("this is a test",/[a-z]+$/); print start}'
    $ awk '{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
    
```
第一個(gè)實(shí)例打印以連續(xù)小寫(xiě)字符結(jié)尾的開(kāi)始位置，這里是11。

第二個(gè)實(shí)例還打印RSTART和RLENGTH變量，這里是11(start)，11(RSTART)，4(RLENGTH)。

toupper和tolower函數(shù)可用于字符串大小間的轉(zhuǎn)換，該功能只在gawk中有效。格式如下：

            toupper( string )
    tolower( string )

實(shí)例：

            $ awk '{ print toupper("test"), tolower("TEST") }'

split函數(shù)可按給定的分隔符把字符串分割為一個(gè)數(shù)組。如果分隔符沒(méi)提供，則按當(dāng)前FS值進(jìn)行分割。格式如下：
```
            split( string, array, field separator )
    split( string, array )
    
```
實(shí)例：
```
            $ awk '{ split( "20:18:00", time, ":" ); print time[2] }'
    
```
上例把時(shí)間按冒號(hào)分割到time數(shù)組內(nèi)，并顯示第二個(gè)數(shù)組元素18。

14.8.2. 時(shí)間函數(shù)

systime函數(shù)返回從1970年1月1日開(kāi)始到當(dāng)前時(shí)間(不計(jì)閏年)的整秒數(shù)。格式如下：
```
            systime()
    
```
實(shí)例：
```
            $ awk '{ now = systime(); print now }'
    
```

strftime函數(shù)使用C庫(kù)中的strftime函數(shù)格式化時(shí)間。格式如下：

            systime( [format specification][,timestamp] )

Table 3. 日期和時(shí)間格式說(shuō)明符

格式	描述
%a	星期幾的縮寫(xiě)(Sun)
%A	星期幾的完整寫(xiě)法(Sunday)
%b	月名的縮寫(xiě)(Oct)
%B	月名的完整寫(xiě)法(October)
%c	本地日期和時(shí)間
%d	十進(jìn)制日期
%D	日期 08/20/99
%e	日期，如果只有一位會(huì)補(bǔ)上一個(gè)空格
%H	用十進(jìn)制表示24小時(shí)格式的小時(shí)
%I	用十進(jìn)制表示12小時(shí)格式的小時(shí)
%j	從1月1日起一年中的第幾天
%m	十進(jìn)制表示的月份
%M	十進(jìn)制表示的分鐘
%p	12小時(shí)表示法(AM/PM)
%S	十進(jìn)制表示的秒
%U	十進(jìn)制表示的一年中的第幾個(gè)星期(星期天作為一個(gè)星期的開(kāi)始)
%w	十進(jìn)制表示的星期幾(星期天是0)
%W	十進(jìn)制表示的一年中的第幾個(gè)星期(星期一作為一個(gè)星期的開(kāi)始)
%x	重新設(shè)置本地日期(08/20/99)
%X	重新設(shè)置本地時(shí)間(12：00：00)
%y	兩位數(shù)字表示的年(99)
%Y	當(dāng)前月份
%Z	時(shí)區(qū)(PDT)
%%	百分號(hào)(%)

實(shí)例：

            $ awk '{ now=strftime( "%D", systime() ); print now }'
    $ awk '{ now=strftime("%m/%d/%y"); print now }'

14.8.3. 內(nèi)建數(shù)學(xué)函數(shù)

Table 4.

函數(shù)名稱	返回值
atan2(x,y)	y,x范圍內(nèi)的余切
cos(x)	余弦函數(shù)
exp(x)	求冪
int(x)	取整
log(x)	自然對(duì)數(shù)
rand()	隨機(jī)數(shù)
sin(x)	正弦
sqrt(x)	平方根
srand(x)	x是rand()函數(shù)的種子
int(x)	取整，過(guò)程沒(méi)有舍入
rand()	產(chǎn)生一個(gè)大于等于0而小于1的隨機(jī)數(shù)

14.8.4. 自定義函數(shù)

在awk中還可自定義函數(shù)，格式如下：

        function name ( parameter, parameter, parameter, ... ) {
statements
return expression                  # the return statement and expression are optional
}

15. How-to

如何把一行豎排的數(shù)據(jù)轉(zhuǎn)換成橫排？

awk '{printf("%s,",$1)}' filename

發(fā)表于 2009-05-10 10:45 漫步者×&……%￥閱讀(250) 評(píng)論(0) 編輯收藏引用

漫步者先學(xué)會(huì)轉(zhuǎn)文章，在仔細(xì)讀文章，最后自己寫(xiě)點(diǎn)東西........
C++博客 \| 首頁(yè) \| 發(fā)新隨筆 \| 發(fā)新文章 \| 聯(lián)系 \| 聚合 \| 管理	隨筆：16 文章：136 評(píng)論：8 引用：0

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

Awk學(xué)習(xí)筆記