• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            foxriver
            Keep It Simple and Stupid.
            posts - 12,  comments - 39,  trackbacks - 0

            當(dāng)QQ群聊天記錄日積月累,達(dá)到一定數(shù)量級(jí)的時(shí)候,要查找某些單一文字,往往會(huì)花費(fèi)10幾秒甚至幾分鐘才有反應(yīng)。除去磁盤(pán)讀取的時(shí)間,是否對(duì)聊天記錄做一個(gè)全局索引也是個(gè)重要的優(yōu)化,這篇文章就是為了優(yōu)化文本查找速度,介紹一個(gè)最簡(jiǎn)單的方法。

            試著把QQ每條聊天記錄看成SQL里單一記錄,對(duì)單條記錄做全文索引。這里用的方法是bit位快速匹配。假設(shè)一條聊天記錄是"test", 轉(zhuǎn)換成16進(jìn)制,就是"74 65 73 74", 對(duì)單條記錄,定義196位bit空間(占用24字節(jié)),定義為數(shù)組A, 然后按bit層(注意不是字節(jié))做or操作:  (A = A or N, 把A的第N個(gè)bit設(shè)置為1)

            初始狀態(tài):
            A = 0;        // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x10,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            A = A or 0x74; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x18,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            使用時(shí),給需要查找的字符串建立相同大小的bit索引B,對(duì)查找數(shù)據(jù)"es"做相同處理:

            B = 0;
            B = B or 0x65; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】
            B = B or 0x73; // 【0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x20,0x00,0x08,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00,0x00】

            然后把A和B做and操作,如果結(jié)果為空(完全沒(méi)有交集),則可以快速跳過(guò)這條記錄,而不用去判斷實(shí)際內(nèi)容中是否包含了查找文本。

            if (B & A)
            {
              // 兩者索引存在交集,有一定的可能性,處理進(jìn)一步文字查找操作。
            }
            else
            {
              // 兩者不可能有包含關(guān)系,直接跳過(guò)本條記錄內(nèi)容,判斷數(shù)據(jù)庫(kù)下一條記錄。
            }

            原理很簡(jiǎn)單,就是求兩者的交集,但往往簡(jiǎn)單的索引,能帶來(lái)意想不到的速度提升。實(shí)際測(cè)試中,只要輸入的查找文本比較短小,大約30%~60%上下浮動(dòng)的數(shù)據(jù)都能直接略過(guò),大大節(jié)省了查找總耗時(shí)。

            本人實(shí)現(xiàn)中,中文的查找方法相當(dāng)于兩個(gè)單字節(jié)的英文,為了最大效率利用空間,用算法把中文每個(gè)BYTE都?jí)嚎s在196bit之內(nèi)。

            posted on 2011-01-14 01:22 foxriver 閱讀(2215) 評(píng)論(6)  編輯 收藏 引用

            FeedBack:
            # re: C++ 【原創(chuàng)算法】實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-01-14 09:30 | atyuwen
            你這個(gè)不就是bloom filter的山寨版么,而且hash時(shí)并沒(méi)有考慮到pattern中的字母順序,結(jié)果退化成了一個(gè)普通的字符集求交。  回復(fù)  更多評(píng)論
              
            # re: C++ 實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-01-14 09:42 | foxriver
            @atyuwen

            啥,已經(jīng)有人實(shí)現(xiàn)過(guò)了?有點(diǎn)杯具,去找來(lái)bloom filter研究研究。  回復(fù)  更多評(píng)論
              
            # re: C++ 【山寨算法】實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-01-14 12:03 | waiting4you
            和布隆算法還是不太一樣的,有創(chuàng)意~~
            只是有個(gè)地方?jīng)]看懂,A = A or 0x74怎么運(yùn)算呢?怎么得到...0x16...的?謝謝  回復(fù)  更多評(píng)論
              
            # re: C++ 【山寨算法】實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-01-14 14:28 | foxriver
            @waiting4you

            杯具,測(cè)試數(shù)據(jù)寫(xiě)錯(cuò)了,是十進(jìn)制的結(jié)果,被我寫(xiě)成了16進(jìn)制,已經(jīng)修正。感謝。  回復(fù)  更多評(píng)論
              
            # re: C++ 【山寨算法】實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-01-14 21:50 | qiuxiafei
            額 確實(shí)是bloomfilter....
            不過(guò)還是很贊 異曲同工  回復(fù)  更多評(píng)論
              
            # re: C++ 【山寨算法】實(shí)現(xiàn)一個(gè)最簡(jiǎn)單bit位全文查找索引。
            2011-02-12 17:57 | 隨便寫(xiě)寫(xiě)~~
            @waiting4you
            嘗試做了下,還不錯(cuò)~~

            public void or(byte[] input, byte index) {
            int move = index % 8;
            int fix = index / 8;
            input[fix] |= (byte)(1 << move);
            }

            public bool and(byte[] input1, byte[] input2) {
            for (int i = 0; i < input1.Length; i++) {
            int x = input1[i] & input2[i];
            if (x > 0)
            return true;
            }
            return false;
            }  回復(fù)  更多評(píng)論
              

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理



            <2012年2月>
            2930311234
            567891011
            12131415161718
            19202122232425
            26272829123
            45678910

            常用鏈接

            留言簿(3)

            隨筆檔案

            文章檔案

            相冊(cè)

            1

            搜索

            •  

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            伊人久久成人成综合网222| 国产99久久久久久免费看 | 精产国品久久一二三产区区别| 日本欧美国产精品第一页久久| 九九精品久久久久久噜噜| 人妻精品久久无码专区精东影业| 国产精品国色综合久久| 久久精品成人影院| 久久精品国产久精国产思思| 久久久久久噜噜精品免费直播 | 狠狠色丁香婷婷综合久久来来去| 久久青青草原精品国产软件| 久久亚洲AV成人无码| 青青草原1769久久免费播放| 久久综合九色综合网站| 欧美综合天天夜夜久久| 伊人久久大香线蕉av不卡| 激情五月综合综合久久69| 久久久久亚洲AV成人片| 久久九九兔免费精品6| 久久久久久av无码免费看大片| 国产精品一久久香蕉国产线看| 久久影院亚洲一区| 国产成人久久777777| 2021久久国自产拍精品| 亚洲国产精品无码久久久秋霞2| 欧美色综合久久久久久| 国产91久久综合| 国产亚洲美女精品久久久| 97久久香蕉国产线看观看| 欧美日韩久久中文字幕| 亚洲欧美成人久久综合中文网 | 2020国产成人久久精品| 久久久久综合国产欧美一区二区| 久久精品一区二区三区不卡| 国产精品久久影院| 国内精品久久久久影院优| 久久无码人妻一区二区三区午夜| 亚洲精品乱码久久久久久蜜桃图片 | 伊人久久大香线蕉AV一区二区| 久久久久香蕉视频|