• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            不會(huì)飛的鳥(niǎo)

            2010年12月10日 ... 不鳥(niǎo)他們!!! 我要用自己開(kāi)發(fā)的分布式文件系統(tǒng)、分布式調(diào)度系統(tǒng)、分布式檢索系統(tǒng), 做自己的搜索引擎!!!大魚(yú)有大志!!! ---楊書(shū)童

            [轉(zhuǎn)]TF-IDF與余弦相似性的應(yīng)用(二):找出相似文章

            今天,我們?cè)賮?lái)研究另一個(gè)相關(guān)的問(wèn)題。有些時(shí)候,除了找到關(guān)鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。

            為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉一個(gè)例子來(lái)說(shuō)明,什么是"余弦相似性"。

            為了簡(jiǎn)單起見(jiàn),我們先從句子著手。

              句子A:我喜歡看電視,不喜歡看電影。

              句子B:我不喜歡看電視,也不喜歡看電影。

            請(qǐng)問(wèn)怎樣才能計(jì)算上面兩句話的相似程度?

            基本思路是:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。

            第一步,分詞。

              句子A:我/喜歡/看/電視,不/喜歡/看/電影。

              句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

            第二步,列出所有的詞。

              我,喜歡,看,電視,電影,不,也。

            第三步,計(jì)算詞頻。

              句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。

              句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

            第四步,寫(xiě)出詞頻向量。

              句子A:[1, 2, 2, 1, 1, 1, 0]

              句子B:[1, 2, 2, 1, 1, 2, 1]

            到這里,問(wèn)題就變成了如何計(jì)算這兩個(gè)向量的相似程度。

            我們可以把它們想象成空間中的兩條線段,都是從原點(diǎn)([0, 0, ...])出發(fā),指向不同的方向。兩條線段之間形成一個(gè)夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過(guò)夾角的大小,來(lái)判斷向量的相似程度。夾角越小,就代表越相似。

            以二維空間為例,上圖的a和b是兩個(gè)向量,我們要計(jì)算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:

            假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫(xiě)成下面的形式:

            數(shù)學(xué)家已經(jīng)證明,余弦的這種計(jì)算方法對(duì)n維向量也成立。假定A和B是兩個(gè)n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:

            使用這個(gè)公式,我們就可以得到,句子A與句子B的夾角的余弦。

            余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事實(shí)上它們的夾角大約為20.3度。

            由此,我們就得到了"找出相似文章"的一種算法:

              (1)使用TF-IDF算法,找出兩篇文章的關(guān)鍵詞;

              (2)每篇文章各取出若干個(gè)關(guān)鍵詞(比如20個(gè)),合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻(為了避免文章長(zhǎng)度的差異,可以使用相對(duì)詞頻);

              (3)生成兩篇文章各自的詞頻向量;

              (4)計(jì)算兩個(gè)向量的余弦相似度,值越大就表示越相似。

            "余弦相似度"是一種非常有用的算法,只要是計(jì)算兩個(gè)向量的相似程度,都可以采用它。

            posted on 2014-03-06 21:36 不會(huì)飛的鳥(niǎo) 閱讀(248) 評(píng)論(0)  編輯 收藏 引用


            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


            久久久久久久99精品免费观看| 三级片免费观看久久| 久久九九兔免费精品6| 91精品国产91久久| 欧美激情精品久久久久| 2022年国产精品久久久久| 久久久久女人精品毛片| 久久一日本道色综合久久| 人妻精品久久久久中文字幕69| 久久综合亚洲色一区二区三区| 99久久国产亚洲综合精品| 偷窥少妇久久久久久久久| 久久亚洲AV无码精品色午夜| 最新久久免费视频| 亚洲精品无码久久千人斩| 伊人久久大香线蕉亚洲| 久久精品国产亚洲av水果派 | 色综合久久天天综合| 国产A级毛片久久久精品毛片| 精品久久久无码中文字幕| 青青青青久久精品国产h久久精品五福影院1421 | 国产日韩久久免费影院| 久久丝袜精品中文字幕| 久久国产AVJUST麻豆| 久久夜色精品国产网站| 天天久久狠狠色综合| 国产69精品久久久久APP下载| 久久精品国产清高在天天线| 国产综合精品久久亚洲| 婷婷久久久亚洲欧洲日产国码AV| 国产精品久久影院| 久久笫一福利免费导航| 久久久久人妻一区二区三区vr | 99久久这里只精品国产免费| 久久国产色AV免费观看| 欧美久久久久久午夜精品| 伊人久久大香线蕉av不变影院| 久久亚洲精品视频| 2021最新久久久视精品爱| 91精品国产高清久久久久久国产嫩草| 久久久久亚洲国产|