• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 79  文章 - 58  trackbacks - 0
            <2007年8月>
            2930311234
            567891011
            12131415161718
            19202122232425
            2627282930311
            2345678

            常用鏈接

            留言簿(9)

            隨筆分類

            隨筆檔案

            文章檔案

            相冊

            搜索

            •  

            積分與排名

            • 積分 - 296549
            • 排名 - 88

            最新評論

            閱讀排行榜

            評論排行榜

            預處理主要就是建立兩個索引
            (1)網頁索引(通過URL知道網頁保存在本地哪里)

            (2)對網頁內容進行分詞然后建立倒排索引


            分詞的方法:

            (1)基本的詞典(中文比英文復雜多了,英文有空格來區分詞語)

            (2)使用字符串匹配(正向最大匹配,逆向最大匹配,最少切分),一般使用逆向最大匹配.
            (3)使用統計的方式來確定新詞,即相鄰的字共現的頻率越大,越有可能是新詞


            建立倒排索引:
            (1)分析網頁,去除html標簽,提取正文信息
            (2)分詞,然后以詞為索引建立倒排文件.


             

             

             

            posted on 2008-03-05 23:10 merlinfang 閱讀(768) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
            久久久久成人精品无码中文字幕| 久久国产精品99久久久久久老狼| 久久婷婷五月综合成人D啪| 色99久久久久高潮综合影院| 亚洲精品美女久久久久99| 久久国产成人精品麻豆| 中文字幕精品无码久久久久久3D日动漫 | 少妇久久久久久久久久| 国产 亚洲 欧美 另类 久久| 久久久久久久久波多野高潮| 99久久精品费精品国产| 亚洲精品美女久久久久99| 日韩欧美亚洲综合久久影院Ds| av午夜福利一片免费看久久| 怡红院日本一道日本久久 | 66精品综合久久久久久久| 久久无码专区国产精品发布| 99久久亚洲综合精品成人| 日产精品久久久久久久| 日韩欧美亚洲国产精品字幕久久久 | 久久ww精品w免费人成| 国产精品久久久久蜜芽| 国产午夜精品久久久久九九| 97久久久精品综合88久久| 欧洲精品久久久av无码电影| 一级A毛片免费观看久久精品| 99久久精品这里只有精品| 久久91综合国产91久久精品| 精品蜜臀久久久久99网站| 欧美喷潮久久久XXXXx| 无码专区久久综合久中文字幕 | 久久久九九有精品国产| 2021精品国产综合久久| 久久精品一区二区国产| 久久免费高清视频| 久久综合九色综合97_久久久| 嫩草影院久久99| 久久久久国产一级毛片高清板 | 日产精品99久久久久久| 久久精品人人槡人妻人人玩AV| 久久99国产乱子伦精品免费|