青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 87  文章 - 279  trackbacks - 0
<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

潛心看書研究!

常用鏈接

留言簿(19)

隨筆分類(81)

文章分類(89)

相冊(cè)

ACM OJ

My friends

搜索

  •  

積分與排名

  • 積分 - 220431
  • 排名 - 118

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

數(shù)學(xué)之美 系列九 -- 如何確定網(wǎng)頁(yè)和查詢的相關(guān)性



[我們已經(jīng)談過(guò)了如何自動(dòng)下載網(wǎng)頁(yè)如何建立索引如何衡量網(wǎng)頁(yè)的質(zhì)量(Page Rank)。我們今天談?wù)勅绾未_定一個(gè)網(wǎng)頁(yè)和某個(gè)查詢的相關(guān)性。了解了這四個(gè)方面,一個(gè)有一定編程基礎(chǔ)的讀者應(yīng)該可以寫一個(gè)簡(jiǎn)單的搜索引擎了,比如為您所在的學(xué)校或院系建立一個(gè)小的搜索引擎。]

我們還是看上回的例子,查找關(guān)于“原子能的應(yīng)用”的網(wǎng)頁(yè)。我們第一步是在索引中找到包含這三個(gè)詞的網(wǎng)頁(yè)(詳見(jiàn)關(guān)于布爾運(yùn)算的系列)。現(xiàn)在任何一個(gè)搜索引擎都包含幾十萬(wàn)甚至是上百萬(wàn)個(gè)多少有點(diǎn)關(guān)系的網(wǎng)頁(yè)。那么哪個(gè)應(yīng)該排在前面呢?顯然我們應(yīng)該根據(jù)網(wǎng)頁(yè)和查詢“原子能的應(yīng)用”的相關(guān)性對(duì)這些網(wǎng)頁(yè)進(jìn)行排序。因此,這里的關(guān)鍵問(wèn)題是如何度量網(wǎng)頁(yè)和查詢的相關(guān)性。

我們知道,短語(yǔ)“原子能的應(yīng)用”可以分成三個(gè)關(guān)鍵詞:原子能、的、應(yīng)用。根據(jù)我們的直覺(jué),我們知道,包含這三個(gè)詞多的網(wǎng)頁(yè)應(yīng)該比包含它們少的網(wǎng)頁(yè)相關(guān)。當(dāng)然,這個(gè)辦法有一個(gè)明顯的漏洞,就是長(zhǎng)的網(wǎng)頁(yè)比短的網(wǎng)頁(yè)占便宜,因?yàn)殚L(zhǎng)的網(wǎng)頁(yè)總的來(lái)講包含的關(guān)鍵詞要多些。因此我們需要根據(jù)網(wǎng)頁(yè)的長(zhǎng)度,對(duì)關(guān)鍵詞的次數(shù)進(jìn)行歸一化,也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁(yè)的總字?jǐn)?shù)。我們把這個(gè)商稱為“關(guān)鍵詞的頻率”,或者“單文本詞匯頻率”(Term Frequency),比如,在某個(gè)一共有一千詞的網(wǎng)頁(yè)中“原子能”、“的”和“應(yīng)用”分別出現(xiàn)了 2 次、35 次 和 5 次,那么它們的詞頻就分別是 0.002、0.035 和 0.005。 我們將這三個(gè)數(shù)相加,其和 0.042 就是相應(yīng)網(wǎng)頁(yè)和查詢“原子能的應(yīng)用”
相關(guān)性的一個(gè)簡(jiǎn)單的度量。概括地講,如果一個(gè)查詢包含關(guān)鍵詞 w1,w2,...,wN, 它們?cè)谝黄囟ňW(wǎng)頁(yè)中的詞頻分別是: TF1, TF2, ..., TFN。 (TF: term frequency)。 那么,這個(gè)查詢和該網(wǎng)頁(yè)的相關(guān)性就是:
TF1 + TF2 + ... + TFN。

讀者可能已經(jīng)發(fā)現(xiàn)了又一個(gè)漏洞。在上面的例子中,詞“的”站了總詞頻的 80% 以上,而它對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)有用。我們稱這種詞叫“應(yīng)刪除詞”(Stopwords),也就是說(shuō)在度量相關(guān)性是不應(yīng)考慮它們的頻率。在漢語(yǔ)中,應(yīng)刪除詞還有“是”、“和”、“中”、“地”、“得”等等幾十個(gè)。忽略這些應(yīng)刪除詞后,上述網(wǎng)頁(yè)的相似度就變成了0.007,其中“原子能”貢獻(xiàn)了0.002,“應(yīng)用”貢獻(xiàn)了 0.005。

細(xì)心的讀者可能還會(huì)發(fā)現(xiàn)另一個(gè)小的漏洞。在漢語(yǔ)中,“應(yīng)用”是個(gè)很通用的詞,而“原子能”是個(gè)很專業(yè)的詞,后者在相關(guān)性排名中比前者重要。因此我們需要給漢語(yǔ)中的每一個(gè)詞給一個(gè)權(quán)重,這個(gè)權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:

1. 一個(gè)詞預(yù)測(cè)主題能力越強(qiáng),權(quán)重就越大,反之,權(quán)重就越小。我們?cè)诰W(wǎng)頁(yè)中看到“原子能”這個(gè)詞,或多或少地能了解網(wǎng)頁(yè)的主題。我們看到“應(yīng)用”一次,對(duì)主題基本上還是一無(wú)所知。因此,“原子能“的權(quán)重就應(yīng)該比應(yīng)用大。

2. 應(yīng)刪除詞的權(quán)重應(yīng)該是零。

我們很容易發(fā)現(xiàn),如果一個(gè)關(guān)鍵詞只在很少的網(wǎng)頁(yè)中出現(xiàn),我們通過(guò)它就容易鎖定搜索目標(biāo),它的權(quán)重也就應(yīng)該大。反之如果一個(gè)詞在大量網(wǎng)頁(yè)中出現(xiàn),我們看到它仍然不很清楚要找什么內(nèi)容,因此它應(yīng)該小。概括地講,假定一個(gè)關(guān)鍵詞 w 在 Dw 個(gè)網(wǎng)頁(yè)中出現(xiàn)過(guò),那么 Dw 越大,w 的權(quán)重越小,反之亦然。在信息檢索中,使用最多的權(quán)重是“逆文本頻率指數(shù)” (Inverse document frequency 縮寫為IDF),它的公式為log(D/Dw)其中D是全部網(wǎng)頁(yè)數(shù)。比如,我們假定中文網(wǎng)頁(yè)數(shù)是D=10億,應(yīng)刪除詞“的”在所有的網(wǎng)頁(yè)中都出現(xiàn),即Dw=10億,那么它的IDF=log(10億/10億)= log (1) = 0。假如專用詞“原子能”在兩百萬(wàn)個(gè)網(wǎng)頁(yè)中出現(xiàn),即Dw=200萬(wàn),則它的權(quán)重IDF=log(500) =6.2。又假定通用詞“應(yīng)用”,出現(xiàn)在五億個(gè)網(wǎng)頁(yè)中,它的權(quán)重IDF = log(2)
則只有 0.7。也就只說(shuō),在網(wǎng)頁(yè)中找到一個(gè)“原子能”的比配相當(dāng)于找到九個(gè)“應(yīng)用”的匹配。利用 IDF,上述相關(guān)性計(jì)算個(gè)公式就由詞頻的簡(jiǎn)單求和變成了加權(quán)求和,即 TF1*IDF1 + TF2*IDF2 +... + TFN*IDFN。在上面的例子中,該網(wǎng)頁(yè)和“原子能的應(yīng)用”的相關(guān)性為 0.0161,其中“原子能”貢獻(xiàn)了 0.0126,而“應(yīng)用”只貢獻(xiàn)了0.0035。這個(gè)比例和我們的直覺(jué)比較一致了。

TF/IDF(term frequency/inverse document frequency) 的概念被公認(rèn)為信息檢索中最重要的發(fā)明。在搜索、文獻(xiàn)分類和其他相關(guān)領(lǐng)域有廣泛的應(yīng)用。講起 TF/IDF 的歷史蠻有意思。IDF 的概念最早是劍橋大學(xué)的斯巴克-瓊斯[注:她有兩個(gè)姓] (Karen Sparck Jones)提出來(lái)的。斯巴克-瓊斯 1972 年在一篇題為關(guān)鍵詞特殊性的統(tǒng)計(jì)解釋和她在文獻(xiàn)檢索中的應(yīng)用的論文中提出IDF。遺憾的是,她既沒(méi)有從理論上解釋為什么權(quán)重IDF 應(yīng)該是對(duì)數(shù)函數(shù) log(D/Dw)(而不是其它的函數(shù),比如平方根),也沒(méi)有在這個(gè)題目上作進(jìn)一步深入研究,以至于在以后的很多文獻(xiàn)中人們提到 TF/IDF 時(shí)沒(méi)有引用她的論文,絕大多數(shù)人甚至不知道斯巴克-瓊斯的貢獻(xiàn)。同年羅賓遜寫了個(gè)兩頁(yè)紙的解釋,解釋得很不好。倒是后來(lái)康乃爾大學(xué)的薩爾頓(Salton)多次寫文章、寫書討論 TF/IDF 在信息檢索中的用途,加上薩爾頓本人的大名(信息檢索的世界大獎(jiǎng)就是以薩爾頓的名字命名的)。很多人都引用薩爾頓的書,甚至以為這個(gè)信息檢索中最重要的概念是他提出的。當(dāng)然,世界并沒(méi)有忘記斯巴克-瓊斯的貢獻(xiàn),2004年,在紀(jì)念文獻(xiàn)學(xué)學(xué)報(bào)創(chuàng)刊 60 周年之際,該學(xué)報(bào)重印了斯巴克-瓊斯的大作。羅賓遜在同期期刊上寫了篇文章,用香農(nóng)的信息論解釋 IDF,這回的解釋是對(duì)的,但文章寫的并不好、非常冗長(zhǎng)(足足十八頁(yè)),把一個(gè)簡(jiǎn)單問(wèn)題搞復(fù)雜了。其實(shí),信息論的學(xué)者們已經(jīng)發(fā)現(xiàn)并指出,其實(shí) IDF 的概念就是一個(gè)特定條件下、關(guān)鍵詞的概率分布的交叉熵(Kullback-Leibler Divergence)(詳見(jiàn)上一系列)。這樣,信息檢索相關(guān)性的度量,又回到了信息論。

現(xiàn)在的搜索引擎對(duì) TF/IDF 進(jìn)行了不少細(xì)微的優(yōu)化,使得相關(guān)性的度量更加準(zhǔn)確了。當(dāng)然,對(duì)有興趣寫一個(gè)搜索引擎的愛(ài)好者來(lái)講,使用 TF/IDF 就足夠了。 如果我們結(jié)合上網(wǎng)頁(yè)排名(Page Rank),那么給定一個(gè)查詢,有關(guān)網(wǎng)頁(yè)綜合排名大致由相關(guān)性和網(wǎng)頁(yè)排名乘積決定。
posted on 2008-08-09 17:43 閱讀(224) 評(píng)論(0)  編輯 收藏 引用 所屬分類: string match
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美在线播放| 亚洲久久一区| 久久久综合精品| 先锋影音国产精品| 欧美一区综合| 欧美一区三区三区高中清蜜桃 | 欧美区一区二区三区| 欧美jjzz| 国产精品美女午夜av| 国产乱码精品| 亚洲国产日韩一级| 一区二区电影免费观看| 欧美在线视频免费观看| 老司机午夜精品| 亚洲免费观看高清完整版在线观看熊 | 欧美激情第一页xxx| 亚洲国产另类精品专区| 亚洲精品日韩综合观看成人91| 在线中文字幕日韩| 亚洲一区二区黄色| 久久视频这里只有精品| 亚洲欧洲日本国产| 亚洲综合社区| 免费一级欧美片在线观看| 亚洲欧美国产高清va在线播| 国产美女精品视频| 91久久精品久久国产性色也91| 夜夜嗨av一区二区三区网页| 久久精品国产一区二区三区| 亚洲精品视频在线看| 久久国产精品99久久久久久老狼| 欧美精品一区在线| 亚洲国产精品一区二区久| 欧美日韩亚洲网| 国产亚洲欧美一区二区三区| 亚洲国产经典视频| 欧美在线视频免费| 一本色道久久综合亚洲精品不| 欧美中文字幕视频在线观看| 欧美三级电影精品| 99re热精品| 欧美国产日韩亚洲一区| 久久中文精品| 亚洲欧美国产高清va在线播| 欧美日韩国产一级| 亚洲娇小video精品| 久久久91精品国产| 亚洲先锋成人| 欧美视频在线观看视频极品| 欧美在线免费观看亚洲| 最新亚洲激情| 欧美精品国产精品日韩精品| 在线高清一区| 美国十次了思思久久精品导航| 欧美亚洲免费| 午夜久久影院| 在线免费观看日韩欧美| 久久久精品国产一区二区三区 | 欧美一区二区三区的| 9久草视频在线视频精品| 欧美激情一区二区三区全黄| 亚洲经典三级| 欧美高清视频一区| 久久这里有精品15一区二区三区| 国产无遮挡一区二区三区毛片日本| 先锋影音久久| 久久精品91久久香蕉加勒比| 欧美在线亚洲| 韩国v欧美v日本v亚洲v| 麻豆成人精品| 男人的天堂亚洲在线| 亚洲精品你懂的| 亚洲精品视频在线播放| 另类av导航| 久久精品官网| 久久夜色精品国产亚洲aⅴ| 亚洲国产导航| 日韩一级不卡| 国产亚洲一区在线播放| 欧美成人一区在线| 欧美伦理一区二区| 香蕉成人啪国产精品视频综合网| 午夜精品久久久99热福利| 伊人春色精品| 99亚洲伊人久久精品影院红桃| 国产精品一区在线播放| 免费人成精品欧美精品| 欧美精品一区二区三区久久久竹菊| 亚洲一区二区日本| 国产欧美一区二区精品仙草咪| 久久综合狠狠综合久久综合88| 新67194成人永久网站| 久久人人精品| 一区二区三区免费看| 亚洲免费中文| 国产美女精品| 1024国产精品| 99综合精品| 久久精品国产精品亚洲综合| 中文精品视频| 欧美专区日韩专区| 一区二区三区成人精品| 久久精品一区四区| 亚洲一区二区在| 男女激情久久| 久久久久久伊人| 欧美日韩精品久久久| 久久亚洲精品一区二区| 欧美视频在线免费看| 欧美激情按摩在线| 国产专区欧美精品| 亚洲一级二级在线| 亚洲精品国产精品国自产在线| 亚洲欧美视频在线观看| 亚洲性感美女99在线| 蜜桃精品一区二区三区| 韩日在线一区| 亚洲综合电影| 亚洲一区二区三| 欧美精品www| 欧美顶级艳妇交换群宴| 国产欧美精品一区二区色综合| 亚洲人成在线观看一区二区| 欧美激情久久久久久| 免费91麻豆精品国产自产在线观看| 久久av资源网站| 国产精品毛片在线看| 日韩亚洲欧美中文三级| 一本色道久久综合亚洲精品高清 | 久久国产精品久久精品国产| 亚洲影院色在线观看免费| 欧美久久久久久久久| 91久久精品国产91久久| 亚洲国产毛片完整版 | 欧美久久久久久久久久| 亚洲靠逼com| 欧美 日韩 国产在线| 在线午夜精品自拍| 欧美精品亚洲| 亚洲麻豆视频| 亚洲天堂网在线观看| 欧美日韩免费一区二区三区| 国外成人在线视频网站| 久久久国产午夜精品| 国产亚洲一区精品| 国产精品久久久久天堂| 亚洲人成在线影院| 久久综合中文字幕| 亚洲一区视频在线| 国产精品社区| 欧美一区=区| 久久久久在线| 在线播放亚洲一区| 欧美精品偷拍| 亚洲一本视频| 久久久久久91香蕉国产| 一色屋精品亚洲香蕉网站| 久久免费高清视频| 亚洲日本在线视频观看| 这里只有精品视频| 国产欧美日韩一级| 久久久久9999亚洲精品| 亚洲在线黄色| 午夜精品999| 久久漫画官网| 亚洲三级免费电影| 欧美日韩理论| 欧美一级久久久| 欧美大片一区二区| 在线综合亚洲| 国色天香一区二区| 国产精品一区三区| 亚洲欧美日韩精品综合在线观看| 欧美在线不卡视频| 亚洲激情中文1区| 欧美性猛交99久久久久99按摩| 欧美亚洲免费在线| 91久久在线观看| 欧美在线观看www| 91久久久精品| 国产午夜久久久久| 欧美日韩精品一区| 久久大逼视频| 99精品视频免费| 麻豆精品精品国产自在97香蕉| 99精品久久免费看蜜臀剧情介绍| 国产精品视频yy9299一区| 老鸭窝亚洲一区二区三区| 亚洲一区免费在线观看| 亚洲欧洲一区二区在线播放| 亚洲人成亚洲人成在线观看图片 | 亚洲欧美成人网| 欧美激情第9页| 欧美在线黄色| 国产精品99久久久久久久女警 | 亚洲欧美国产精品va在线观看| 在线播放中文一区| 国产精品扒开腿做爽爽爽视频 | 一本久道久久综合婷婷鲸鱼| 欧美成人免费观看|