勤能補(bǔ)拙，Expter

成都游戲Coder，記錄游戲開(kāi)發(fā)過(guò)程的筆記和心得！

導(dǎo)航

<

2009年7月

>

日

一

二

三

四

五

六

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

統(tǒng)計(jì)

隨筆 - 67
文章 - 1
評(píng)論 - 209
引用 - 0

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

2008年10月 (1)

收藏夾

書(shū)庫(kù)(2) (rss)

程序人生

經(jīng)常去的論壇

csdn
vcbase
軍事網(wǎng)
sina軍事網(wǎng)

曾經(jīng)ACM

sicheng
wlgwstc
zzningxp大牛
百度f(wàn)m
百度f(wàn)m
中科院博士

積分與排名

積分 - 194389
排名 - 137

閱讀排行榜

評(píng)論排行榜

一個(gè)關(guān)鍵字過(guò)濾算法

      經(jīng)常某些論壇，或者軟件中對(duì)某些字符串進(jìn)行了關(guān)鍵字過(guò)濾, 一般代替為*號(hào)，一般的算法是利用strstr算法，即使是string的find子串算法復(fù)雜度也是(N*log(n))，并非kmp算法，也非bm查找子串算法。
     對(duì)于一組關(guān)鍵字過(guò)濾，特別是對(duì)于一組字符串多，且長(zhǎng)度不規(guī)律的字符串過(guò)濾算法完全是有必要的。

    網(wǎng)上對(duì)于關(guān)鍵字過(guò)濾算法較多，且實(shí)現(xiàn)方法較多，本文主要介紹基于一種把關(guān)鍵字轉(zhuǎn)換為Unicode，然后對(duì)關(guān)鍵字的字符或者單個(gè)關(guān)鍵字hash求值。算法復(fù)雜度為O(n).
   對(duì)于漢字的hash值的求法，因?yàn)槭荱nicode編碼是16位，哈希求值:

/// 求漢字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

    基本算法思想;
   1.建立2個(gè)過(guò)濾關(guān)鍵字?jǐn)?shù)組:數(shù)組1：為單個(gè)字符數(shù)組2：為2個(gè)或者多個(gè)字符
   2.求出數(shù)組1，2的hash值，數(shù)組2的hash值只求出前2個(gè)字符的hash值即可。
   3.掃描待檢測(cè)的文本，然后每次取2個(gè)字符，查找數(shù)組2是否有匹配，如果沒(méi)有則查找數(shù)組1。。。。查找為O(1)

主要代碼如下:

/*

File : WordFilter.cpp

brief: 關(guān)鍵字過(guò)濾程序，復(fù)雜度為O(n)，線性

Author: Expter

Data : 2009/06/30

對(duì)漢字或者字符進(jìn)行哈希算法，先轉(zhuǎn)換為unicode編碼，然后求其hash值。

主要算法為:

1.建立2個(gè)過(guò)濾關(guān)鍵字?jǐn)?shù)組:數(shù)組1：為單個(gè)字符數(shù)組2：為2個(gè)或者多個(gè)字符

2.求出數(shù)組1，2的hash值，數(shù)組2的hash值只求出前2個(gè)字符的hash值即可。

3.掃描待檢測(cè)的文本，然后每次取2個(gè)字符，查找數(shù)組2是否有匹配，如果沒(méi)有則查找數(shù)組1。。。。查找為O(1)

不足:

不能很好的分詞。過(guò)濾不是很準(zhǔn)確，每次只能1，2個(gè)詞的過(guò)濾。

*/

#include <stdlib.h>

#include <iostream>

#include <map>

#include <vector>

#include <string>

#include <windows.h>

#include <wchar.h>

#include <iosfwd>

using namespace std;

wchar_t des1 [5][2] = { L"漢",L"字",L"測(cè)",L"試",L"個(gè)"};

wchar_t des2 [3][5] = { L"用漢", L"的啥" ,L"測(cè)試啊"};

wchar_t src[] = { L"這個(gè)原來(lái)是打算的啥子?xùn)|西用漢字只是一個(gè)是不是測(cè)試"};

/// 求漢字的哈希值

long HashFun(wchar_t word)

{

BYTE l = LOBYTE(word);

int h = HIBYTE(word);

long num = h << 8 ;

num +=l;

return num;

}

long HashFun(wchar_t * word)

{

return HashFun(word[0])*10 + HashFun(word[1]);

}

void ParamVer(map<long,int> hashmp , wchar_t *src , int i)

{

long val = HashFun(src[i+1]);

if(hashmp[val] == 1)

{

src[i+1] = L'*';

}

void VmAlorgthm(map<long,int> hashmp,wchar_t *src)

{

long val = 0;

int m = wcslen(src) ;

// O(n);

for(int i = 0 ; i < m-1 ; i ++)

{

if( HashFun(src[i]) != L'*')

{

val = HashFun(src[i]) + HashFun(src[i+1]);

if( hashmp[val] == 1)

{

src[i] = L'*';

src[i+1] =L'*';

}

else

{

val = HashFun(src[i]);

if(hashmp[val] == 1)

{

src[i] = L'*';

}

else

{

ParamVer(hashmp,src,i);

}

else

{

ParamVer(hashmp,src,i+1);

}

ParamVer(hashmp,src,m-1);

}

int _tmain(int argc, _TCHAR* argv[])

{

wcout.imbue(locale("chs"));

typedef map<long,int> HASHMAP;

cout <<" 需要過(guò)濾文本: ";

wcout<< src <<endl;

cout <<" 過(guò)濾關(guān)鍵字 : " ;

for(int i = 0 ;i < 5; i++)

wcout << des1[i][0] <<" ";

wcout <<endl;

cout <<" 過(guò)濾關(guān)鍵詞 : " ;

for(int i = 0 ;i < 3; i++)

wcout << des2[i] <<" ";

wcout <<endl;

long val = 0;

HASHMAP hash_map;

/// 字 hash

for(int i = 0 ; i < 5 ; i++)

{

val = HashFun(des1[i][0]);

hash_map[val] = 1;

}

/// 詞 hash

for(int i =0 ; i < 3 ; i++)

{

val = HashFun(des2[i]);

hash_map[val] = 1;

}

VmAlorgthm(hash_map,src);

cout <<"\n-------------------------------------------------------------\n"

<<" 過(guò)濾后的文本: ";

wcout<< src <<endl;

return 0;

}

posted on 2009-07-12 22:07 expter 閱讀(4156) 評(píng)論(4) 編輯收藏引用所屬分類: 其他學(xué)習(xí)筆記、算法與數(shù)據(jù)結(jié)構(gòu)

評(píng)論

# re: 一個(gè)關(guān)鍵字過(guò)濾算法[未登錄](méi) 2009-07-13 11:33 megax

用hash，對(duì)于詞組來(lái)說(shuō)本身就有不確定性回復(fù) 更多評(píng)論

# re: 一個(gè)關(guān)鍵字過(guò)濾算法 2009-07-14 00:42 XXOO

我一般是先把詞組排序，然后對(duì)每個(gè)字進(jìn)行二分法這樣。或者也可以HASH
回復(fù) 更多評(píng)論

# re: 一個(gè)關(guān)鍵字過(guò)濾算法 2009-07-14 12:37 戴爾電腦

看了有點(diǎn)幫助！！回復(fù) 更多評(píng)論

# re: 一個(gè)關(guān)鍵字過(guò)濾算法[未登錄](méi) 2009-07-20 09:10 cc

你這個(gè)hashfun有干活嗎？傳進(jìn)去的值沒(méi)有變化啊回復(fù) 更多評(píng)論

刷新評(píng)論列表

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。


相關(guān)文章: 根據(jù)子類類型訪問(wèn)其特有操作針對(duì)一個(gè)內(nèi)存池測(cè)試相關(guān)介紹一個(gè)關(guān)于容器選取的刪除問(wèn)題。在CEGUI顯示GIF圖像，簡(jiǎn)單的聊天窗口實(shí)現(xiàn)方式. 基于CEGUI的StaticText的超級(jí)鏈接實(shí)現(xiàn) 一個(gè)基于足球AI仿真機(jī)的模擬實(shí)現(xiàn) 基于策略的一種高效內(nèi)存池的實(shí)現(xiàn) 一個(gè)小型的IOCP網(wǎng)絡(luò)庫(kù) 一個(gè)字典生成算法幾種解法: 一個(gè)問(wèn)題，如何優(yōu)化？是否有高效的算法

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問(wèn) Chat2DB 管理

# re: 一個(gè)關(guān)鍵字過(guò)濾算法[未登錄](méi) 2009-07-13 11:33 megax

# re: 一個(gè)關(guān)鍵字過(guò)濾算法 2009-07-14 00:42 XXOO

# re: 一個(gè)關(guān)鍵字過(guò)濾算法 2009-07-14 12:37 戴爾電腦

# re: 一個(gè)關(guān)鍵字過(guò)濾算法[未登錄](méi) 2009-07-20 09:10 cc

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

勤能補(bǔ)拙，Expter

導(dǎo)航

統(tǒng)計(jì)

留言簿(18)

隨筆分類

隨筆檔案

文章檔案

收藏夾

程序人生

經(jīng)常去的論壇

曾經(jīng)ACM

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

一個(gè)關(guān)鍵字過(guò)濾算法

評(píng)論