預(yù)處理主要就是建立兩個索引
(1)網(wǎng)頁索引(通過URL知道網(wǎng)頁保存在本地哪里)
(2)對網(wǎng)頁內(nèi)容進(jìn)行分詞然后建立倒排索引
分詞的方法:
(1)基本的詞典(中文比英文復(fù)雜多了,英文有空格來區(qū)分詞語)
(2)使用字符串匹配(正向最大匹配,逆向最大匹配,最少切分),一般使用逆向最大匹配.
(3)使用統(tǒng)計(jì)的方式來確定新詞,即相鄰的字共現(xiàn)的頻率越大,越有可能是新詞
建立倒排索引:
(1)分析網(wǎng)頁,去除html標(biāo)簽,提取正文信息
(2)分詞,然后以詞為索引建立倒排文件.