青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 87  文章 - 279  trackbacks - 0
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

潛心看書研究!

常用鏈接

留言簿(19)

隨筆分類(81)

文章分類(89)

相冊

ACM OJ

My friends

搜索

  •  

積分與排名

  • 積分 - 219480
  • 排名 - 118

最新評論

閱讀排行榜

評論排行榜

如何確定中文字符串的相似度

 

作者:肖波

個人博客:http://blog.csdn.net/eaglet

Email:blog.eaglet@gmail.com

2007/4 南京

 

摘要

在數據挖掘的研究中,我們往往需要判斷文章是否雷同,對類似文章或短句進行歸類處理等,這其中就會遇到這樣的問題:如何確定兩個字符串之間的相似程度。

本文綜合作者的實際工作經驗和數據挖掘理論,結合中文字符串特性介紹一套相對完整的方法,以解決上述問題.

 

分析

     最簡單的問題求解

       字符串由一組不同含義的單詞組成,它不同于數值型變量,可以用一個特定的數值來確定它的大小或位置,所以用何種方式來描述兩個字符串之間的距離,成為了一個值得探討的問題。

       通常情況下,用于分析的數據類型有如下幾種:區間標度遍歷、二元變量、標稱型變量、序數型變量、比例標度型變量、混合類型變量等。

       綜合這些變量類型,本文認為字符串變量更適合于歸類于二元變量,我們可以利用分詞技術將字符串分成若干個單詞,每個獨立的單詞作為二元變量的一個屬性。我們把所有單詞設定為一個二元變量屬性集合R,字符串1和字符串2的單詞包含于這個集合R。設q是字符串1和字符串2中都存在的單詞的總數,s是字符串1中存在,字符串2中不存在的單詞總數,r是字符串2中存在,字符串1中不存在的單詞總數,t是字符串1和字符串2中都不存在的單詞總數。我們稱 q,r,s,t為字符串比較中的4個狀態分量。 如圖1所示:

由于兩個字符串都不存在的單詞對兩個字符串的比較沒有任何作用,所以忽略t,于是我們采用非恒定的相似度評價系數(Jaccard系數)來描述兩個字符串見的相異度表示公式為

相異度 = r+s / (q+r+s),不難推斷,他們的形似度公式為

相似度=q/(q+r+s) 公式1

 

 

 

1 字符串關系描述

 

 

例如如下兩個字符串串:

字符串1:非對稱變量

字符串2:非對稱空間

他們的二元屬性關系表為:

字符串/屬性

對稱

變量

空間

非對稱變量

Y

Y

Y

N

非對稱空間

Y

Y

N

Y

 

Y 表示存在該單詞屬性,N表示不存在該單詞屬性

那么對應的

s = 1; q = 2; r = 1

兩個字符串的相似度為 2/(1+2+1) = 50%

 

單詞重復問題求解

前面討論的問題是最簡單的字符串比較問題,這個問題中單個字符串不存在重復的單詞,然而如果字符串中出現重復單詞,采用上一節的公式套用后得到的結果往往不夠理想,比如

字符串1:前進前進

字符串2:前進

公式1相似度=q/(q+r+s) 來計算,

q = 1 , r=s=0 ,得到的相似度為100%,而實際上這兩個字符串并不完全相同。為解決這個問題,我們必須將在不同位置出現的相同單詞假設為不同單詞,以其在字符串中出現的次序作為區分,這樣其二元屬性關系表如下:

字符串/屬性

前進1

前進2

前進前進

Y

Y

前進

Y

N

相應的 q = 1, s=1, r= 0

其相似度為 1/(1+1+0) = 50%

 

狀態分量權重 

在實際應用中,q,r,s三種狀態分量并不一定是同等價值的,它們往往根據實際應用的需要存在不同的權重,比如對于某些應用來說,兩個字符串中相同單詞數量比不同單詞數量更能說明字符串的相似程度,那么我們必須將q的權重提高,重新計算相似程度。

我們設對應q,r,s三個變量的權重分別是Kq, Kr, Ks ,則公式1 演進為

相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面問題,對于上一節的兩個字符串,如果我們設置Kq = 2 ,Kr=Ks=1,則更加公式2

它們的相似度為 2*1/ (2*1+1*1+1*0) = 66.7%

 

同義詞問題

在語言中,同義詞是經常遇到的問題,如果兩個字符串中存在同義詞,其相似度又如何計算呢。

對于同義詞問題,我們要從分詞過程中來解決。首先我們需要構建一個同義詞對照表,將同義詞對應到一個等價單詞,在對字符串分詞后對字符串中的所有單詞到同義詞表中查找,如果存在,則替換為對應的等價單詞,這樣分詞后,兩個字符串中的同義詞就指向了相同的單詞。

比如存在同義詞表如下:

 

單詞

等價詞

也許

也許

或許

也許

可能

也許

 

 

字符串1:他也許不來了

字符串2:他可能不來了

 

分詞后二元屬性關系表如下:

字符串/屬性

也許

不來

他也許不來了

Y

Y

Y

Y

他可能不來了

Y

Y

Y

Y

 

不難看出,兩個字符串的相似度為 100%

同音不同義

在中文網絡環境中,由于大多數網絡文章的作者都是采用拼音輸入法輸入漢字,經常會出現輸入同音不同義的文字錯誤,為了糾正這種錯誤,我們可以考慮采用漢語拼音的方式進行分詞,也可以綜合分詞,也就是先正常分詞,在拼音分詞,字符串的分詞結果去兩者的并集。

 

小節

確定字符串相似度的方法很多,本文根據作者多年從事數據挖掘工作的經驗結合數據挖掘理論提出的相關解決方案,可以較好的解決中文字符串分析中的相似度比較問題。但技術的發展是不斷前進的,相信未來還會有更好的方法來解決中文字符串相似度比較問題。讀者如果有更好的想法或者發現本文算法中的不足,非常歡迎和本文作者聯系。

 

參考文獻

《數據挖掘概念與技術》 機械工業出版社 Jiawei Han, Micheline Kamber

posted on 2008-08-09 17:40 閱讀(1178) 評論(0)  編輯 收藏 引用 所屬分類: string match
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲国产婷婷| 夜夜嗨网站十八久久| 性欧美大战久久久久久久免费观看| 久久人人爽人人爽| 亚洲人成在线观看网站高清| 久久久xxx| 性一交一乱一区二区洋洋av| 久久久久国产精品一区三寸| 性欧美长视频| 亚洲黄一区二区三区| 久久免费视频网站| 亚洲欧美色一区| 欧美高清视频www夜色资源网| 亚洲自拍电影| 欧美日韩免费在线| 99亚洲视频| 欧美激情亚洲精品| 性做久久久久久久久| 亚洲精品午夜| 91久久在线观看| 国产精品蜜臀在线观看| 亚洲精品乱码久久久久久日本蜜臀| 欧美综合77777色婷婷| 老色批av在线精品| 亚洲女爱视频在线| 欧美国产高潮xxxx1819| 欧美成年网站| 欧美成人精品1314www| 老鸭窝亚洲一区二区三区| 亚洲欧美一区二区激情| 老司机精品导航| 99精品视频一区| 欧美中在线观看| 另类图片国产| 欧美一级网站| 看片网站欧美日韩| 亚洲欧美国产高清va在线播| 亚洲毛片在线| 午夜精品一区二区三区在线播放 | 国产一区二区| 一区二区三区在线视频免费观看 | 亚洲欧美高清| 欧美精品一区在线| 亚洲国产高清视频| 小黄鸭精品密入口导航| 日韩视频一区二区三区在线播放免费观看| 欧美一级理论性理论a| 国产精品稀缺呦系列在线| 亚洲永久免费| 亚洲欧美日韩在线综合| 国产精品美女www爽爽爽| 性欧美大战久久久久久久久| 欧美三级在线| 久久精品夜色噜噜亚洲aⅴ| 亚洲欧美电影在线观看| 国产日韩精品一区二区| 久色婷婷小香蕉久久| 久久成人这里只有精品| 一区二区三区在线观看视频| 久久久蜜桃一区二区人| 久久国产日韩| 99成人在线| 午夜精品福利在线| 红桃视频一区| 日韩小视频在线观看专区| 国产精品啊v在线| 久久午夜影视| 欧美三日本三级三级在线播放| 亚洲专区一区| 免费一级欧美片在线播放| 日韩亚洲国产欧美| 亚洲一区二区三区在线视频 | 欧美一区观看| 免费在线观看日韩欧美| 在线视频你懂得一区| 亚洲欧美www| 在线观看亚洲精品视频| 亚洲精品在线免费观看视频| 国产精品久久久久久久第一福利| 麻豆精品一区二区av白丝在线| 国产精品综合久久久| 亚洲午夜小视频| 国产一本一道久久香蕉| 亚洲激情亚洲| 国产精品久久久久影院色老大| 亚洲国产精选| 国产日韩精品久久久| 久久99在线观看| 亚洲国产精品久久久久秋霞蜜臀| 一区二区毛片| 欧美日韩国产精品成人| 久久综合给合久久狠狠色| 国产日本欧美在线观看| 亚洲欧美日韩综合国产aⅴ| 一本色道久久| 麻豆av一区二区三区| 久久成人国产| 国产精品欧美日韩一区| 91久久在线播放| 亚洲高清视频在线| 久久久久久夜| 欧美成人蜜桃| 黄色亚洲免费| 久久久久久电影| 欧美成人中文字幕在线| 狠狠色综合一区二区| 欧美在线视频免费观看| 老司机成人在线视频| 亚洲人成高清| 欧美久久综合| 亚洲国产人成综合网站| 一本色道久久99精品综合| 欧美韩国在线| 亚洲欧美一级二级三级| 久久人体大胆视频| 一区二区三区产品免费精品久久75| 欧美了一区在线观看| 欧美日韩亚洲91| 久久九九精品| 亚洲午夜精品一区二区三区他趣 | 国产亚洲高清视频| 极品av少妇一区二区| 日韩一二三区视频| 欧美在线视频一区二区三区| 在线视频亚洲一区| 亚洲欧美在线高清| 99精品视频免费在线观看| 好吊日精品视频| 国产手机视频精品| 欧美精品成人一区二区在线观看| 亚洲精品社区| 99国产精品视频免费观看| 欧美激情免费观看| 久久精品视频在线观看| 香蕉久久一区二区不卡无毒影院| 亚洲国产精品免费| 一本久道久久综合狠狠爱| 国内成人在线| 亚洲黄色视屏| 1000部精品久久久久久久久| 国产精品一区二区三区四区五区| 国产精品久久久久毛片软件 | 欧美日韩国产色站一区二区三区 | 亚洲国产精品久久久久婷婷884| 亚洲国产网站| 久久久噜噜噜久久狠狠50岁| 另类av一区二区| 国产精品视频福利| 亚洲午夜免费视频| 久久亚洲国产成人| 亚洲国产婷婷香蕉久久久久久99| 欧美一区影院| 欧美视频导航| 亚洲天堂免费观看| 日韩亚洲一区在线播放| 欧美精品123区| 亚洲日本成人网| 亚洲国产欧美日韩| 欧美日韩免费高清| 亚洲欧美美女| 香蕉久久国产| 久久久午夜精品| 亚洲一区二区毛片| 免费在线看成人av| 亚洲神马久久| 欧美激情一区二区三区蜜桃视频 | 亚洲国产精品免费| 蜜桃av一区二区三区| 亚洲免费在线观看视频| 国产精品99一区| 亚洲一区欧美激情| 欧美激情在线免费观看| 欧美影视一区| 亚洲国产精品专区久久| 亚洲综合社区| 性做久久久久久久免费看| 国产精品卡一卡二卡三| 另类图片综合电影| 久久国产毛片| 韩国一区二区三区美女美女秀| 久久久夜色精品亚洲| 国产精品盗摄久久久| 欧美在线视频一区二区| 麻豆成人91精品二区三区| 亚洲精品乱码久久久久久蜜桃91| 99精品热6080yy久久 | 欧美一级在线亚洲天堂| 亚洲综合日本| 在线免费观看视频一区| 最新国产の精品合集bt伙计| 国产精品一级二级三级| 亚洲人成网在线播放| 欧美性一区二区| 亚洲第一级黄色片| 国产午夜久久久久| 麻豆91精品91久久久的内涵| 国产精品香蕉在线观看| 亚洲精品日韩精品| 精品999日本| 亚洲字幕一区二区|