當(dāng)QQ群聊天記錄日積月累,達(dá)到一定數(shù)量級(jí)的時(shí)候,要查找某些單一文字,往往會(huì)花費(fèi)10幾秒甚至幾分鐘才有反應(yīng)。除去磁盤(pán)讀取的時(shí)間,是否對(duì)聊天記錄做一個(gè)全局索引也是個(gè)重要的優(yōu)化,這篇文章就是為了優(yōu)化文本查找速度,介紹一個(gè)最簡(jiǎn)單的方法。
試著把QQ每條聊天記錄看成SQL里單一記錄,對(duì)單條記錄做全文索引。這里用的方法是bit位快速匹配。假設(shè)一條聊天記錄是"test", 轉(zhuǎn)換成16進(jìn)制,就是"74 65 73 74", 對(duì)單條記錄,定義196位bit空間(占用24字節(jié)),定義為數(shù)組A, 然后按bit層(注意不是字節(jié))做or操作: (A = A or N, 把A的第N個(gè)bit設(shè)置為1)
初始狀態(tài):
A = 0; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
使用時(shí),給需要查找的字符串建立相同大小的bit索引B,對(duì)查找數(shù)據(jù)"es"做相同處理:
B = 0;
B = B or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
B = B or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x08,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
然后把A和B做and操作,如果結(jié)果為空(完全沒(méi)有交集),則可以快速跳過(guò)這條記錄,而不用去判斷實(shí)際內(nèi)容中是否包含了查找文本。
if (B & A)
{
// 兩者索引存在交集,有一定的可能性,處理進(jìn)一步文字查找操作。
}
else
{
// 兩者不可能有包含關(guān)系,直接跳過(guò)本條記錄內(nèi)容,判斷數(shù)據(jù)庫(kù)下一條記錄。
}
原理很簡(jiǎn)單,就是求兩者的交集,但往往簡(jiǎn)單的索引,能帶來(lái)意想不到的速度提升。實(shí)際測(cè)試中,只要輸入的查找文本比較短小,大約30%~60%上下浮動(dòng)的數(shù)據(jù)都能直接略過(guò),大大節(jié)省了查找總耗時(shí)。
本人實(shí)現(xiàn)中,中文的查找方法相當(dāng)于兩個(gè)單字節(jié)的英文,為了最大效率利用空間,用算法把中文每個(gè)BYTE都?jí)嚎s在196bit之內(nèi)。
posted on 2011-01-14 01:22
foxriver 閱讀(2215)
評(píng)論(6) 編輯 收藏 引用