青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 87  文章 - 279  trackbacks - 0
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

潛心看書研究!

常用鏈接

留言簿(19)

隨筆分類(81)

文章分類(89)

相冊

ACM OJ

My friends

搜索

  •  

積分與排名

  • 積分 - 219480
  • 排名 - 118

最新評論

閱讀排行榜

評論排行榜

如何確定中文字符串的相似度

 

作者:肖波

個人博客:http://blog.csdn.net/eaglet

Email:blog.eaglet@gmail.com

2007/4 南京

 

摘要

在數據挖掘的研究中,我們往往需要判斷文章是否雷同,對類似文章或短句進行歸類處理等,這其中就會遇到這樣的問題:如何確定兩個字符串之間的相似程度。

本文綜合作者的實際工作經驗和數據挖掘理論,結合中文字符串特性介紹一套相對完整的方法,以解決上述問題.

 

分析

     最簡單的問題求解

       字符串由一組不同含義的單詞組成,它不同于數值型變量,可以用一個特定的數值來確定它的大小或位置,所以用何種方式來描述兩個字符串之間的距離,成為了一個值得探討的問題。

       通常情況下,用于分析的數據類型有如下幾種:區間標度遍歷、二元變量、標稱型變量、序數型變量、比例標度型變量、混合類型變量等。

       綜合這些變量類型,本文認為字符串變量更適合于歸類于二元變量,我們可以利用分詞技術將字符串分成若干個單詞,每個獨立的單詞作為二元變量的一個屬性。我們把所有單詞設定為一個二元變量屬性集合R,字符串1和字符串2的單詞包含于這個集合R。設q是字符串1和字符串2中都存在的單詞的總數,s是字符串1中存在,字符串2中不存在的單詞總數,r是字符串2中存在,字符串1中不存在的單詞總數,t是字符串1和字符串2中都不存在的單詞總數。我們稱 q,r,s,t為字符串比較中的4個狀態分量。 如圖1所示:

由于兩個字符串都不存在的單詞對兩個字符串的比較沒有任何作用,所以忽略t,于是我們采用非恒定的相似度評價系數(Jaccard系數)來描述兩個字符串見的相異度表示公式為

相異度 = r+s / (q+r+s),不難推斷,他們的形似度公式為

相似度=q/(q+r+s) 公式1

 

 

 

1 字符串關系描述

 

 

例如如下兩個字符串串:

字符串1:非對稱變量

字符串2:非對稱空間

他們的二元屬性關系表為:

字符串/屬性

對稱

變量

空間

非對稱變量

Y

Y

Y

N

非對稱空間

Y

Y

N

Y

 

Y 表示存在該單詞屬性,N表示不存在該單詞屬性

那么對應的

s = 1; q = 2; r = 1

兩個字符串的相似度為 2/(1+2+1) = 50%

 

單詞重復問題求解

前面討論的問題是最簡單的字符串比較問題,這個問題中單個字符串不存在重復的單詞,然而如果字符串中出現重復單詞,采用上一節的公式套用后得到的結果往往不夠理想,比如

字符串1:前進前進

字符串2:前進

公式1相似度=q/(q+r+s) 來計算,

q = 1 , r=s=0 ,得到的相似度為100%,而實際上這兩個字符串并不完全相同。為解決這個問題,我們必須將在不同位置出現的相同單詞假設為不同單詞,以其在字符串中出現的次序作為區分,這樣其二元屬性關系表如下:

字符串/屬性

前進1

前進2

前進前進

Y

Y

前進

Y

N

相應的 q = 1, s=1, r= 0

其相似度為 1/(1+1+0) = 50%

 

狀態分量權重 

在實際應用中,q,r,s三種狀態分量并不一定是同等價值的,它們往往根據實際應用的需要存在不同的權重,比如對于某些應用來說,兩個字符串中相同單詞數量比不同單詞數量更能說明字符串的相似程度,那么我們必須將q的權重提高,重新計算相似程度。

我們設對應q,r,s三個變量的權重分別是Kq, Kr, Ks ,則公式1 演進為

相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面問題,對于上一節的兩個字符串,如果我們設置Kq = 2 ,Kr=Ks=1,則更加公式2

它們的相似度為 2*1/ (2*1+1*1+1*0) = 66.7%

 

同義詞問題

在語言中,同義詞是經常遇到的問題,如果兩個字符串中存在同義詞,其相似度又如何計算呢。

對于同義詞問題,我們要從分詞過程中來解決。首先我們需要構建一個同義詞對照表,將同義詞對應到一個等價單詞,在對字符串分詞后對字符串中的所有單詞到同義詞表中查找,如果存在,則替換為對應的等價單詞,這樣分詞后,兩個字符串中的同義詞就指向了相同的單詞。

比如存在同義詞表如下:

 

單詞

等價詞

也許

也許

或許

也許

可能

也許

 

 

字符串1:他也許不來了

字符串2:他可能不來了

 

分詞后二元屬性關系表如下:

字符串/屬性

也許

不來

他也許不來了

Y

Y

Y

Y

他可能不來了

Y

Y

Y

Y

 

不難看出,兩個字符串的相似度為 100%

同音不同義

在中文網絡環境中,由于大多數網絡文章的作者都是采用拼音輸入法輸入漢字,經常會出現輸入同音不同義的文字錯誤,為了糾正這種錯誤,我們可以考慮采用漢語拼音的方式進行分詞,也可以綜合分詞,也就是先正常分詞,在拼音分詞,字符串的分詞結果去兩者的并集。

 

小節

確定字符串相似度的方法很多,本文根據作者多年從事數據挖掘工作的經驗結合數據挖掘理論提出的相關解決方案,可以較好的解決中文字符串分析中的相似度比較問題。但技術的發展是不斷前進的,相信未來還會有更好的方法來解決中文字符串相似度比較問題。讀者如果有更好的想法或者發現本文算法中的不足,非常歡迎和本文作者聯系。

 

參考文獻

《數據挖掘概念與技術》 機械工業出版社 Jiawei Han, Micheline Kamber

posted on 2008-08-09 17:40 閱讀(1178) 評論(0)  編輯 收藏 引用 所屬分類: string match
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲在线第一页| 欧美国产成人精品| 亚洲一区二区三区三| 久久久国产视频91| 艳妇臀荡乳欲伦亚洲一区| 久久久国产91| 国产精品美女久久久| 一区二区欧美日韩视频| 欧美岛国激情| 久久久99爱| 国产一区清纯| 欧美一级欧美一级在线播放| 一本色道久久综合亚洲精品婷婷| 欧美成人精品三级在线观看| 国内视频一区| 裸体丰满少妇做受久久99精品| 亚洲欧美视频| 国产午夜精品一区二区三区欧美| 亚洲午夜精品久久久久久浪潮| 亚洲人体偷拍| 久久久国产亚洲精品| 亚洲伊人久久综合| 国产精品电影观看| 久久爱www久久做| 欧美一区午夜视频在线观看| 一区国产精品| 亚洲国产裸拍裸体视频在线观看乱了中文 | 久久精品日韩欧美| 国产一区二区日韩精品| 久久精品一区二区三区不卡| 久久精品99久久香蕉国产色戒| 国产综合亚洲精品一区二| 老司机免费视频一区二区| 久久亚洲午夜电影| 99人久久精品视频最新地址| 99国产一区| 国产午夜精品一区二区三区欧美| 久久成人久久爱| 久久久久99| 91久久综合| 中文精品99久久国产香蕉| 亚洲一区免费网站| 国产精品久久久一本精品| 亚洲与欧洲av电影| 亚洲午夜精品久久| 国产伦精品一区二区三区高清版| 亚洲免费一级电影| 99精品视频免费观看视频| 欧美成人官网二区| 99精品热视频| 亚洲视频一二三| 国产日韩在线播放| 美女主播精品视频一二三四| 久久综合久久美利坚合众国| 欧美激情第五页| 亚洲欧美国产精品专区久久| 性欧美xxxx视频在线观看| 国产一区二区在线免费观看| 免费不卡在线视频| 欧美日韩1区2区3区| 香蕉视频成人在线观看| 久久精品天堂| 一本色道久久| 午夜一区二区三视频在线观看| 欧美午夜精品伦理| 日韩视频在线一区| 99视频精品在线| 国产午夜精品全部视频播放| 亚洲高清视频在线观看| 欧美婷婷久久| 久久躁日日躁aaaaxxxx| 欧美日韩在线播放一区| 久久久国产精彩视频美女艺术照福利| 麻豆精品传媒视频| 亚洲女爱视频在线| 久久久久久久综合狠狠综合| 99精品视频网| 久久av一区二区三区| 一区二区在线看| 亚洲日韩欧美一区二区在线| 国产色婷婷国产综合在线理论片a| 女同一区二区| 国产精品国产三级国产普通话三级| 久久久久亚洲综合| 欧美日韩午夜激情| 久久综合国产精品台湾中文娱乐网| 欧美日韩的一区二区| 另类春色校园亚洲| 国产乱人伦精品一区二区 | 一本久久a久久精品亚洲| 一本色道88久久加勒比精品 | 欧美色视频在线| 欧美成人精品不卡视频在线观看 | 亚洲欧美在线x视频| 亚洲最快最全在线视频| 久久久久久网址| 欧美一级专区| 欧美日韩一区二区三区免费看| 玖玖国产精品视频| 国产喷白浆一区二区三区| 亚洲精品乱码久久久久| 亚洲国产精品传媒在线观看| 欧美专区在线观看| 欧美一区2区视频在线观看| 欧美视频福利| 久久日韩粉嫩一区二区三区| 国产精品日韩在线播放| 宅男精品视频| 亚洲无限av看| 欧美日韩在线精品| 日韩视频一区二区三区| 欧美日韩在线精品一区二区三区| 亚洲国产精品成人一区二区| 亚洲春色另类小说| 久久综合狠狠综合久久激情| 久久九九免费视频| 国产在线成人| 久久久精品日韩| 欧美高清免费| 在线免费一区三区| 久久久久久久久久久久久久一区 | 99这里只有精品| 亚洲午夜国产成人av电影男同| 欧美日韩综合在线| 亚洲天堂av电影| 欧美一区二区精品| 韩日在线一区| 亚洲欧美视频在线| 亚洲在线观看视频| 尤物精品在线| 欧美成人dvd在线视频| 亚洲精品视频二区| 亚洲中字在线| 国产日韩精品在线| 久久久精品日韩欧美| 亚洲国产免费| 一区二区三区四区五区视频 | 欧美.www| 韩国成人福利片在线播放| 久久久精品日韩| 亚洲人成人99网站| 性欧美暴力猛交69hd| 国产综合一区二区| 欧美成人在线影院| 亚洲午夜在线观看视频在线| 久久电影一区| 亚洲黄色一区| 国产精品久久久久91| 久久福利毛片| 91久久精品国产91久久性色| 欧美资源在线观看| 香蕉成人伊视频在线观看| 亚洲国产精品成人精品| 欧美色视频一区| 蜜桃av综合| 亚洲伊人一本大道中文字幕| 激情小说另类小说亚洲欧美 | 亚洲深夜福利| 久久久久国产精品www| 日韩一区二区精品| 国产亚洲成av人在线观看导航| 免费在线看一区| 亚洲综合国产精品| 亚洲国产精品尤物yw在线观看| 性高湖久久久久久久久| 亚洲毛片av| 国内精品久久久久久久影视麻豆| 欧美精品久久天天躁| 欧美在线播放视频| 亚洲视频999| 亚洲国产精品精华液2区45| 性做久久久久久久免费看| 亚洲国产精品日韩| 国产亚洲欧美一级| 欧美日韩网址| 亚洲日本成人在线观看| 亚洲国产激情| 久久综合激情| 亚洲一区二区三区欧美| 亚洲精品国产精品国自产在线 | 欧美国产精品劲爆| 久久琪琪电影院| 先锋影音国产一区| 一本色道久久综合精品竹菊 | 欧美在线一级视频| 亚洲成色777777女色窝| 国产精品久久二区二区| 欧美色图天堂网| 欧美日韩国产二区| 久久er精品视频| 亚洲精品欧洲精品| 亚洲风情亚aⅴ在线发布| 久久字幕精品一区| 久久久99久久精品女同性| 欧美一区二区免费观在线| 午夜综合激情| 亚洲男同1069视频| 亚洲欧美久久久| 亚洲综合首页| 91久久夜色精品国产九色|