青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統, 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉]TF-IDF與余弦相似性的應用(二):找出相似文章

今天,我們再來研究另一個相關的問題。有些時候,除了找到關鍵詞,我們還希望找到與原文章相似的其他文章。比如,"Google新聞"在主新聞下方,還提供多條相似的新聞。

為了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我舉一個例子來說明,什么是"余弦相似性"。

為了簡單起見,我們先從句子著手。

  句子A:我喜歡看電視,不喜歡看電影。

  句子B:我不喜歡看電視,也不喜歡看電影。

請問怎樣才能計算上面兩句話的相似程度?

基本思路是:如果這兩句話的用詞越相似,它們的內容就應該越相似。因此,可以從詞頻入手,計算它們的相似程度。

第一步,分詞。

  句子A:我/喜歡/看/電視,不/喜歡/看/電影。

  句子B:我/不/喜歡/看/電視,也/不/喜歡/看/電影。

第二步,列出所有的詞。

  我,喜歡,看,電視,電影,不,也。

第三步,計算詞頻。

  句子A:我 1,喜歡 2,看 2,電視 1,電影 1,不 1,也 0。

  句子B:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

第四步,寫出詞頻向量。

  句子A:[1, 2, 2, 1, 1, 1, 0]

  句子B:[1, 2, 2, 1, 1, 2, 1]

到這里,問題就變成了如何計算這兩個向量的相似程度。

我們可以把它們想象成空間中的兩條線段,都是從原點([0, 0, ...])出發,指向不同的方向。兩條線段之間形成一個夾角,如果夾角為0度,意味著方向相同、線段重合;如果夾角為90度,意味著形成直角,方向完全不相似;如果夾角為180度,意味著方向正好相反。因此,我們可以通過夾角的大小,來判斷向量的相似程度。夾角越小,就代表越相似。

以二維空間為例,上圖的a和b是兩個向量,我們要計算它們的夾角θ。余弦定理告訴我們,可以用下面的公式求得:

假定a向量是[x1, y1],b向量是[x2, y2],那么可以將余弦定理改寫成下面的形式:

數學家已經證明,余弦的這種計算方法對n維向量也成立。假定A和B是兩個n維向量,A是 [A1, A2, ..., An] ,B是 [B1, B2, ..., Bn] ,則A與B的夾角θ的余弦等于:

使用這個公式,我們就可以得到,句子A與句子B的夾角的余弦。

余弦值越接近1,就表明夾角越接近0度,也就是兩個向量越相似,這就叫"余弦相似性"。所以,上面的句子A和句子B是很相似的,事實上它們的夾角大約為20.3度。

由此,我們就得到了"找出相似文章"的一種算法:

  (1)使用TF-IDF算法,找出兩篇文章的關鍵詞;

  (2)每篇文章各取出若干個關鍵詞(比如20個),合并成一個集合,計算每篇文章對于這個集合中的詞的詞頻(為了避免文章長度的差異,可以使用相對詞頻);

  (3)生成兩篇文章各自的詞頻向量;

  (4)計算兩個向量的余弦相似度,值越大就表示越相似。

"余弦相似度"是一種非常有用的算法,只要是計算兩個向量的相似程度,都可以采用它。

posted on 2014-03-06 21:36 不會飛的鳥 閱讀(264) 評論(0)  編輯 收藏 引用


只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久人人97超碰精品888| 亚洲破处大片| 久久九九热免费视频| 亚洲国产欧美一区| 亚洲欧美美女| avtt综合网| 一本一本久久a久久精品综合妖精| 国产精品亚洲产品| 国产精品久久久久9999| 欧美日韩中文字幕综合视频| 欧美福利一区二区| 欧美中文日韩| 久久精品视频导航| 久久久久久久久久久久久9999| 一区二区三区视频在线 | 久久综合久久美利坚合众国| 亚洲图片你懂的| 欧美中文字幕视频在线观看| 久久一区二区精品| 亚洲国产日韩精品| 亚洲专区欧美专区| 久久久无码精品亚洲日韩按摩| 久久久久久亚洲精品不卡4k岛国| 欧美国产日韩a欧美在线观看| 欧美日本在线播放| ●精品国产综合乱码久久久久 | 欧美在线亚洲一区| 欧美成人xxx| 国产欧美一区二区三区久久| 亚洲国产日韩美| 欧美在线亚洲综合一区| 亚洲第一在线视频| 久久精品人人做人人爽| 国产精品久久久久99| 91久久中文| 狂野欧美激情性xxxx| 国产午夜精品全部视频播放| 亚洲在线观看视频| 欧美日韩大片一区二区三区| 在线成人h网| 欧美成人精品不卡视频在线观看| 欧美在线视频不卡| 狠狠久久亚洲欧美| 国产午夜精品理论片a级大结局| 亚洲精品资源| 一本色道久久综合狠狠躁篇的优点| 欧美激情国产精品| 亚洲人成人一区二区三区| 欧美国产在线视频| 欧美高清一区| 亚洲欧美中文日韩在线| 亚洲欧美日韩综合aⅴ视频| 国产精品无码专区在线观看| 亚洲欧美日韩精品久久| 亚洲欧美欧美一区二区三区| 国产真实久久| 亚洲精品老司机| 国产精品视频网| 你懂的国产精品永久在线| 免费日韩成人| 久久国产精品第一页| 男女激情久久| 久久久久久久久综合| 欧美精品在线观看91| 午夜视频久久久久久| 欧美成人有码| 乱中年女人伦av一区二区| 欧美午夜不卡在线观看免费| 久久亚洲一区| 国产模特精品视频久久久久 | 亚洲人成艺术| 午夜免费电影一区在线观看| 亚洲激情视频在线播放| 欧美一区二区日韩一区二区| 亚洲一区二区三区免费视频| 欧美大片va欧美在线播放| 久久免费黄色| 久久av最新网址| 欧美一区二视频| 国产精品网曝门| 亚洲伊人网站| 久久精品国产免费观看| 国产精品天天看| 欧美一区二区在线视频| 六月婷婷久久| 99re6热在线精品视频播放速度| 免费精品视频| 一本大道久久精品懂色aⅴ| 亚洲天堂久久| 国产色婷婷国产综合在线理论片a| 欧美一区二区三区视频| 久久亚洲一区二区| 一区二区欧美国产| 国产亚洲二区| 欧美成人一区二区三区在线观看 | 亚洲精品视频免费观看| 亚洲免费影视第一页| 国产一区二区三区在线播放免费观看| 小黄鸭精品密入口导航| 激情国产一区二区| 男女激情久久| 亚洲午夜免费福利视频| 国产欧美一区二区三区久久人妖 | 久久这里有精品视频| 亚洲高清资源| 久久久久久久久久久久久9999| 亚洲国产日韩综合一区| 国产精品入口夜色视频大尺度| 老司机精品视频网站| 一区二区三区四区国产| 激情久久一区| 国产午夜精品久久久久久免费视 | 欧美一区国产一区| 中文一区字幕| 亚洲调教视频在线观看| 亚洲精品国精品久久99热一| 欧美sm重口味系列视频在线观看| 欧美与欧洲交xxxx免费观看| 午夜精品美女自拍福到在线| 日韩一级不卡| 国产精品99久久不卡二区| 在线亚洲+欧美+日本专区| 亚洲精品国产拍免费91在线| 亚洲高清色综合| 99re6热只有精品免费观看| 亚洲激情电影在线| 亚洲乱码一区二区| 一本色道**综合亚洲精品蜜桃冫| 亚洲精选久久| 欧美在线免费播放| 久久精品五月| 欧美国产精品中文字幕| 亚洲精品一区二区三区99| 亚洲免费小视频| 欧美风情在线| 国内精品久久久久伊人av| 亚洲国产日韩欧美| 亚洲欧美日韩精品久久亚洲区 | 在线一区欧美| 久久精品人人做人人爽电影蜜月| 久久中文在线| 国产一区二区三区无遮挡| 99re这里只有精品6| 欧美一站二站| 日韩特黄影片| 欧美成人一区二区三区片免费| 99av国产精品欲麻豆| 久久综合久久综合久久综合| 国产精品久久久久久超碰| 亚洲人成网在线播放| 欧美 日韩 国产在线| 亚洲欧美国产日韩天堂区| 欧美精品三级| 亚洲精品一区二区三区福利| 麻豆精品精品国产自在97香蕉| 性色av一区二区三区| 国产午夜一区二区三区| 亚洲欧美一区在线| 亚洲欧美日韩一区在线| 国产伦精品一区二区三区四区免费| 亚洲一区二区在| 亚洲午夜日本在线观看| 国产精品swag| 午夜欧美大尺度福利影院在线看| 日韩亚洲欧美综合| 国产精品毛片一区二区三区| 久久精品人人做人人爽| 亚洲国产欧美日韩另类综合| 夜夜精品视频| 日韩视频在线免费观看| 国产精品久久99| 久热精品在线| 国产精品v一区二区三区| 久久成人18免费观看| 欧美h视频在线| 午夜精品国产精品大乳美女| 久久gogo国模裸体人体| 亚洲靠逼com| 久久精品国亚洲| 亚洲无亚洲人成网站77777| 午夜亚洲福利| 艳妇臀荡乳欲伦亚洲一区| 午夜精品久久久久久久男人的天堂| 樱花yy私人影院亚洲| 亚洲免费在线电影| 亚洲网站啪啪| 欧美日本韩国| 欧美黄在线观看| 亚洲福利视频一区| 久久高清国产| 久久久人人人| 一区二区三区精密机械公司| 亚洲激情欧美| 免费日韩av电影| 亚洲激情啪啪| 99热在这里有精品免费| 欧美第十八页| 亚洲毛片在线| 亚洲一区欧美一区| 欧美日韩在线精品一区二区三区|