青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 87  文章 - 279  trackbacks - 0
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

潛心看書研究!

常用鏈接

留言簿(19)

隨筆分類(81)

文章分類(89)

相冊

ACM OJ

My friends

搜索

  •  

積分與排名

  • 積分 - 219480
  • 排名 - 118

最新評論

閱讀排行榜

評論排行榜

如何確定中文字符串的相似度

 

作者:肖波

個人博客:http://blog.csdn.net/eaglet

Email:blog.eaglet@gmail.com

2007/4 南京

 

摘要

在數據挖掘的研究中,我們往往需要判斷文章是否雷同,對類似文章或短句進行歸類處理等,這其中就會遇到這樣的問題:如何確定兩個字符串之間的相似程度。

本文綜合作者的實際工作經驗和數據挖掘理論,結合中文字符串特性介紹一套相對完整的方法,以解決上述問題.

 

分析

     最簡單的問題求解

       字符串由一組不同含義的單詞組成,它不同于數值型變量,可以用一個特定的數值來確定它的大小或位置,所以用何種方式來描述兩個字符串之間的距離,成為了一個值得探討的問題。

       通常情況下,用于分析的數據類型有如下幾種:區間標度遍歷、二元變量、標稱型變量、序數型變量、比例標度型變量、混合類型變量等。

       綜合這些變量類型,本文認為字符串變量更適合于歸類于二元變量,我們可以利用分詞技術將字符串分成若干個單詞,每個獨立的單詞作為二元變量的一個屬性。我們把所有單詞設定為一個二元變量屬性集合R,字符串1和字符串2的單詞包含于這個集合R。設q是字符串1和字符串2中都存在的單詞的總數,s是字符串1中存在,字符串2中不存在的單詞總數,r是字符串2中存在,字符串1中不存在的單詞總數,t是字符串1和字符串2中都不存在的單詞總數。我們稱 q,r,s,t為字符串比較中的4個狀態分量。 如圖1所示:

由于兩個字符串都不存在的單詞對兩個字符串的比較沒有任何作用,所以忽略t,于是我們采用非恒定的相似度評價系數(Jaccard系數)來描述兩個字符串見的相異度表示公式為

相異度 = r+s / (q+r+s),不難推斷,他們的形似度公式為

相似度=q/(q+r+s) 公式1

 

 

 

1 字符串關系描述

 

 

例如如下兩個字符串串:

字符串1:非對稱變量

字符串2:非對稱空間

他們的二元屬性關系表為:

字符串/屬性

對稱

變量

空間

非對稱變量

Y

Y

Y

N

非對稱空間

Y

Y

N

Y

 

Y 表示存在該單詞屬性,N表示不存在該單詞屬性

那么對應的

s = 1; q = 2; r = 1

兩個字符串的相似度為 2/(1+2+1) = 50%

 

單詞重復問題求解

前面討論的問題是最簡單的字符串比較問題,這個問題中單個字符串不存在重復的單詞,然而如果字符串中出現重復單詞,采用上一節的公式套用后得到的結果往往不夠理想,比如

字符串1:前進前進

字符串2:前進

公式1相似度=q/(q+r+s) 來計算,

q = 1 , r=s=0 ,得到的相似度為100%,而實際上這兩個字符串并不完全相同。為解決這個問題,我們必須將在不同位置出現的相同單詞假設為不同單詞,以其在字符串中出現的次序作為區分,這樣其二元屬性關系表如下:

字符串/屬性

前進1

前進2

前進前進

Y

Y

前進

Y

N

相應的 q = 1, s=1, r= 0

其相似度為 1/(1+1+0) = 50%

 

狀態分量權重 

在實際應用中,q,r,s三種狀態分量并不一定是同等價值的,它們往往根據實際應用的需要存在不同的權重,比如對于某些應用來說,兩個字符串中相同單詞數量比不同單詞數量更能說明字符串的相似程度,那么我們必須將q的權重提高,重新計算相似程度。

我們設對應q,r,s三個變量的權重分別是Kq, Kr, Ks ,則公式1 演進為

相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面問題,對于上一節的兩個字符串,如果我們設置Kq = 2 ,Kr=Ks=1,則更加公式2

它們的相似度為 2*1/ (2*1+1*1+1*0) = 66.7%

 

同義詞問題

在語言中,同義詞是經常遇到的問題,如果兩個字符串中存在同義詞,其相似度又如何計算呢。

對于同義詞問題,我們要從分詞過程中來解決。首先我們需要構建一個同義詞對照表,將同義詞對應到一個等價單詞,在對字符串分詞后對字符串中的所有單詞到同義詞表中查找,如果存在,則替換為對應的等價單詞,這樣分詞后,兩個字符串中的同義詞就指向了相同的單詞。

比如存在同義詞表如下:

 

單詞

等價詞

也許

也許

或許

也許

可能

也許

 

 

字符串1:他也許不來了

字符串2:他可能不來了

 

分詞后二元屬性關系表如下:

字符串/屬性

也許

不來

他也許不來了

Y

Y

Y

Y

他可能不來了

Y

Y

Y

Y

 

不難看出,兩個字符串的相似度為 100%

同音不同義

在中文網絡環境中,由于大多數網絡文章的作者都是采用拼音輸入法輸入漢字,經常會出現輸入同音不同義的文字錯誤,為了糾正這種錯誤,我們可以考慮采用漢語拼音的方式進行分詞,也可以綜合分詞,也就是先正常分詞,在拼音分詞,字符串的分詞結果去兩者的并集。

 

小節

確定字符串相似度的方法很多,本文根據作者多年從事數據挖掘工作的經驗結合數據挖掘理論提出的相關解決方案,可以較好的解決中文字符串分析中的相似度比較問題。但技術的發展是不斷前進的,相信未來還會有更好的方法來解決中文字符串相似度比較問題。讀者如果有更好的想法或者發現本文算法中的不足,非常歡迎和本文作者聯系。

 

參考文獻

《數據挖掘概念與技術》 機械工業出版社 Jiawei Han, Micheline Kamber

posted on 2008-08-09 17:40 閱讀(1178) 評論(0)  編輯 收藏 引用 所屬分類: string match
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲一区二区在线播放| 久久国产精品一区二区三区四区 | 国内精品免费在线观看| 国产精品一级| 国产视频久久久久久久| 国产欧美日韩免费| 国外成人在线| 亚洲激情偷拍| 亚洲精品免费看| 亚洲国产欧美久久| 亚洲视频你懂的| 欧美成人一区二免费视频软件| 久久亚洲二区| 久久综合免费视频影院| 久久这里只有精品视频首页| 欧美精品三级在线观看| 国产精品无人区| 国产亚洲一区二区三区| 国产亚洲精品美女| 18成人免费观看视频| 一本色道久久综合精品竹菊| 亚洲午夜激情在线| 韩日欧美一区二区三区| 欧美大片免费久久精品三p| 麻豆精品网站| 男同欧美伦乱| 欧美性片在线观看| 国产精品扒开腿爽爽爽视频 | 国产一区二区三区四区老人| 国产在线视频欧美一区二区三区| 国产日韩欧美| 亚洲国产另类久久精品| 亚洲精品国产精品国自产观看| 中日韩高清电影网| 久久高清福利视频| 亚洲在线成人精品| 亚洲欧美日韩国产综合在线| 亚洲欧美第一页| 久久免费视频一区| 91久久精品日日躁夜夜躁欧美 | 狠狠色丁香婷婷综合久久片| 欧美成人一区二区| 国产午夜久久| 在线电影国产精品| 亚洲破处大片| 欧美一区在线视频| 午夜视频一区| 99精品欧美一区二区三区综合在线| 99av国产精品欲麻豆| 久久久精品久久久久| 99国产成+人+综合+亚洲欧美| 欧美中文在线观看| 欧美天堂亚洲电影院在线观看| 精品动漫一区| 欧美一区二区黄| 亚洲精品一二三| 久久蜜桃资源一区二区老牛| 欧美日韩一级黄| 在线精品视频在线观看高清| 欧美一区二区精美| 一本在线高清不卡dvd| 蜜桃视频一区| 国内精品美女av在线播放| 先锋影音久久久| 亚洲三级国产| 欧美成人dvd在线视频| 国产一区二区三区直播精品电影 | 亚洲欧洲综合另类| 欧美一区视频| 国产精品日韩欧美| 99在线精品视频| 欧美电影在线观看完整版| 午夜在线视频一区二区区别| 国产精品激情av在线播放| 亚洲美女在线视频| 亚洲国产精品电影| 米奇777超碰欧美日韩亚洲| 狠狠色2019综合网| 裸体丰满少妇做受久久99精品| 欧美一级片一区| 国产欧美综合在线| 久久国产直播| 久久成人在线| 有码中文亚洲精品| 欧美激情综合| 欧美激情片在线观看| 国产一区二区成人| 91久久线看在观草草青青| 午夜精品久久99蜜桃的功能介绍| 欧美激情亚洲激情| 麻豆av福利av久久av| 亚洲激情欧美激情| 久久九九全国免费精品观看| 欧美在线观看日本一区| 国产亚洲精品综合一区91| 亚洲免费一在线| 国产精品视频免费观看| 99精品国产一区二区青青牛奶| 亚洲黄色影院| 欧美日韩高清在线播放| 一二三区精品福利视频| 中文欧美在线视频| 国产视频精品va久久久久久| 久热精品视频在线| 欧美激情视频免费观看| 亚洲欧美99| 久久精品视频在线| 亚洲国产日韩欧美在线动漫| 夜夜爽av福利精品导航| 欧美日韩国产色综合一二三四 | 亚洲风情在线资源站| 久久久精品网| 韩国久久久久| 久久九九全国免费精品观看| 久久久一区二区三区| 日韩天堂av| 亚洲欧美一区二区在线观看| 在线日韩中文字幕| 99视频有精品| 亚洲国产电影| 亚洲一区二区三区影院| 国产精品嫩草久久久久| 久久精品国产99精品国产亚洲性色 | 国产日韩在线视频| 亚洲高清久久久| 国产片一区二区| 亚洲黄网站在线观看| 国产日本亚洲高清| 亚洲高清在线观看| 国产欧美va欧美不卡在线| 亚洲国产精品123| 国产亚洲一区二区在线观看| 亚洲三级国产| 在线免费高清一区二区三区| 夜夜躁日日躁狠狠久久88av| 国模精品一区二区三区色天香| 牛牛精品成人免费视频| 国产日韩精品在线播放| av成人福利| 国产亚洲第一区| 亚洲国产精品999| 欧美成人久久| 欧美在线高清视频| 欧美 日韩 国产在线| 久久天天躁夜夜躁狠狠躁2022| 国产精品久久久久久久久久免费看 | 一区二区三区四区五区在线| 91久久国产综合久久91精品网站| 久久久久久久一区二区三区| 久久久亚洲综合| 亚洲欧洲精品一区二区三区波多野1战4| 欧美性理论片在线观看片免费| 亚洲国产精品成人精品| 91久久精品国产91久久性色tv| 一区二区在线观看视频| 欧美一站二站| 久久精品亚洲国产奇米99| 另类天堂视频在线观看| 亚洲欧美日韩精品久久| 国产精品久久久久久超碰| 亚洲精选一区| 一区二区三区高清视频在线观看| 欧美国产综合视频| 亚洲国产精品视频一区| 亚洲精品在线视频观看| 免费成人黄色片| 欧美国产视频在线| 亚洲美女精品久久| 欧美日韩亚洲网| 羞羞视频在线观看欧美| 亚洲亚洲精品在线观看 | 国产日韩欧美高清| 欧美亚洲综合另类| 久久精品综合| 亚洲高清网站| 欧美日本簧片| 亚洲小视频在线| 久久精品国产一区二区电影| 伊人蜜桃色噜噜激情综合| 免费短视频成人日韩| 亚洲精品免费一二三区| 亚洲欧美日韩中文播放| 国产综合av| 欧美大片免费久久精品三p | 欧美在线观看日本一区| 欧美成人官网二区| 亚洲午夜电影网| 国内自拍视频一区二区三区| 男同欧美伦乱| 亚洲欧美日韩网| 亚洲第一综合天堂另类专| 在线视频日韩| 欧美性久久久| 亚洲综合激情| 久久久精品久久久久| 国产精品99久久不卡二区| 国产一区二区日韩精品欧美精品| 免费永久网站黄欧美| 亚洲一区亚洲| 亚洲日本电影在线|