青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 87  文章 - 279  trackbacks - 0
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

潛心看書研究!

常用鏈接

留言簿(19)

隨筆分類(81)

文章分類(89)

相冊

ACM OJ

My friends

搜索

  •  

積分與排名

  • 積分 - 219480
  • 排名 - 118

最新評論

閱讀排行榜

評論排行榜

如何確定中文字符串的相似度

 

作者:肖波

個人博客:http://blog.csdn.net/eaglet

Email:blog.eaglet@gmail.com

2007/4 南京

 

摘要

在數據挖掘的研究中,我們往往需要判斷文章是否雷同,對類似文章或短句進行歸類處理等,這其中就會遇到這樣的問題:如何確定兩個字符串之間的相似程度。

本文綜合作者的實際工作經驗和數據挖掘理論,結合中文字符串特性介紹一套相對完整的方法,以解決上述問題.

 

分析

     最簡單的問題求解

       字符串由一組不同含義的單詞組成,它不同于數值型變量,可以用一個特定的數值來確定它的大小或位置,所以用何種方式來描述兩個字符串之間的距離,成為了一個值得探討的問題。

       通常情況下,用于分析的數據類型有如下幾種:區間標度遍歷、二元變量、標稱型變量、序數型變量、比例標度型變量、混合類型變量等。

       綜合這些變量類型,本文認為字符串變量更適合于歸類于二元變量,我們可以利用分詞技術將字符串分成若干個單詞,每個獨立的單詞作為二元變量的一個屬性。我們把所有單詞設定為一個二元變量屬性集合R,字符串1和字符串2的單詞包含于這個集合R。設q是字符串1和字符串2中都存在的單詞的總數,s是字符串1中存在,字符串2中不存在的單詞總數,r是字符串2中存在,字符串1中不存在的單詞總數,t是字符串1和字符串2中都不存在的單詞總數。我們稱 q,r,s,t為字符串比較中的4個狀態分量。 如圖1所示:

由于兩個字符串都不存在的單詞對兩個字符串的比較沒有任何作用,所以忽略t,于是我們采用非恒定的相似度評價系數(Jaccard系數)來描述兩個字符串見的相異度表示公式為

相異度 = r+s / (q+r+s),不難推斷,他們的形似度公式為

相似度=q/(q+r+s) 公式1

 

 

 

1 字符串關系描述

 

 

例如如下兩個字符串串:

字符串1:非對稱變量

字符串2:非對稱空間

他們的二元屬性關系表為:

字符串/屬性

對稱

變量

空間

非對稱變量

Y

Y

Y

N

非對稱空間

Y

Y

N

Y

 

Y 表示存在該單詞屬性,N表示不存在該單詞屬性

那么對應的

s = 1; q = 2; r = 1

兩個字符串的相似度為 2/(1+2+1) = 50%

 

單詞重復問題求解

前面討論的問題是最簡單的字符串比較問題,這個問題中單個字符串不存在重復的單詞,然而如果字符串中出現重復單詞,采用上一節的公式套用后得到的結果往往不夠理想,比如

字符串1:前進前進

字符串2:前進

公式1相似度=q/(q+r+s) 來計算,

q = 1 , r=s=0 ,得到的相似度為100%,而實際上這兩個字符串并不完全相同。為解決這個問題,我們必須將在不同位置出現的相同單詞假設為不同單詞,以其在字符串中出現的次序作為區分,這樣其二元屬性關系表如下:

字符串/屬性

前進1

前進2

前進前進

Y

Y

前進

Y

N

相應的 q = 1, s=1, r= 0

其相似度為 1/(1+1+0) = 50%

 

狀態分量權重 

在實際應用中,q,r,s三種狀態分量并不一定是同等價值的,它們往往根據實際應用的需要存在不同的權重,比如對于某些應用來說,兩個字符串中相同單詞數量比不同單詞數量更能說明字符串的相似程度,那么我們必須將q的權重提高,重新計算相似程度。

我們設對應q,r,s三個變量的權重分別是Kq, Kr, Ks ,則公式1 演進為

相似度=Kq*q/(Kq*q+Kr*r+Ks*s) (Kq > 0 , Kr>=0,Ka>=0) 公式2

回到上面問題,對于上一節的兩個字符串,如果我們設置Kq = 2 ,Kr=Ks=1,則更加公式2

它們的相似度為 2*1/ (2*1+1*1+1*0) = 66.7%

 

同義詞問題

在語言中,同義詞是經常遇到的問題,如果兩個字符串中存在同義詞,其相似度又如何計算呢。

對于同義詞問題,我們要從分詞過程中來解決。首先我們需要構建一個同義詞對照表,將同義詞對應到一個等價單詞,在對字符串分詞后對字符串中的所有單詞到同義詞表中查找,如果存在,則替換為對應的等價單詞,這樣分詞后,兩個字符串中的同義詞就指向了相同的單詞。

比如存在同義詞表如下:

 

單詞

等價詞

也許

也許

或許

也許

可能

也許

 

 

字符串1:他也許不來了

字符串2:他可能不來了

 

分詞后二元屬性關系表如下:

字符串/屬性

也許

不來

他也許不來了

Y

Y

Y

Y

他可能不來了

Y

Y

Y

Y

 

不難看出,兩個字符串的相似度為 100%

同音不同義

在中文網絡環境中,由于大多數網絡文章的作者都是采用拼音輸入法輸入漢字,經常會出現輸入同音不同義的文字錯誤,為了糾正這種錯誤,我們可以考慮采用漢語拼音的方式進行分詞,也可以綜合分詞,也就是先正常分詞,在拼音分詞,字符串的分詞結果去兩者的并集。

 

小節

確定字符串相似度的方法很多,本文根據作者多年從事數據挖掘工作的經驗結合數據挖掘理論提出的相關解決方案,可以較好的解決中文字符串分析中的相似度比較問題。但技術的發展是不斷前進的,相信未來還會有更好的方法來解決中文字符串相似度比較問題。讀者如果有更好的想法或者發現本文算法中的不足,非常歡迎和本文作者聯系。

 

參考文獻

《數據挖掘概念與技術》 機械工業出版社 Jiawei Han, Micheline Kamber

posted on 2008-08-09 17:40 閱讀(1178) 評論(0)  編輯 收藏 引用 所屬分類: string match
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产麻豆综合| 国产精品青草久久久久福利99| 欧美中文字幕精品| 欧美另类视频| 亚洲国产日韩一区二区| 久久国产精品一区二区三区| aa级大片欧美三级| 欧美另类变人与禽xxxxx| 在线成人激情黄色| 久久久久久网| 欧美在线免费观看| 国产日韩精品在线播放| 亚洲综合好骚| 这里只有精品视频在线| 欧美日韩国产首页在线观看| 日韩性生活视频| 亚洲精品国产精品国产自| 欧美亚洲一级片| 国产一区观看| 久久免费国产精品1| 久久久av毛片精品| 在线看欧美日韩| 亚洲电影第1页| 欧美精品国产精品| 一区二区三区色| 亚洲图片欧美日产| 国产伦精品一区二区三区| 欧美在线视频免费观看| 欧美专区在线观看一区| 在线精品视频在线观看高清| 欧美激情视频在线播放 | 91久久在线视频| 欧美区视频在线观看| 亚洲一区二区三区色| 亚洲欧洲av一区二区| 激情六月婷婷久久| 亚洲精品免费电影| 国产亚洲毛片| 麻豆freexxxx性91精品| 蜜臀av性久久久久蜜臀aⅴ四虎| 亚洲黄一区二区| 亚洲最新在线视频| 国产视频一区二区在线观看| 美女任你摸久久| 欧美精品国产精品| 欧美在线免费看| 老司机67194精品线观看| 一区二区成人精品| 欧美一区二区在线免费播放| 亚洲精品久久久久久一区二区| 在线视频亚洲| 激情综合色综合久久综合| 亚洲国产小视频在线观看| 国产精品人人做人人爽人人添| 久久九九国产精品怡红院| 欧美精品aa| 久久天天综合| 欧美天天视频| 欧美福利电影网| 国产精品自拍视频| 亚洲国产精品久久人人爱蜜臀 | 国产精品毛片a∨一区二区三区|国| 久久精品一本久久99精品| 欧美精品日韩www.p站| 久久精品视频网| 欧美视频在线观看一区| 欧美第一黄色网| 国产一区二区三区在线观看免费视频| 亚洲精品欧美极品| 亚洲国产精品成人| 午夜欧美精品| 亚洲免费人成在线视频观看| 免费亚洲电影| 理论片一区二区在线| 国产精品日韩欧美一区二区三区| 亚洲国产老妈| 在线精品观看| 久久久久久久性| 久久国产精彩视频| 国产精品成人一区二区网站软件| 亚洲黄色免费| 亚洲精品视频免费在线观看| 久久精品一区二区三区不卡| 久久精品成人一区二区三区| 国产精品进线69影院| 99精品欧美一区二区蜜桃免费| 亚洲精品一线二线三线无人区| 久热re这里精品视频在线6| 久久久999国产| 国产偷自视频区视频一区二区| 亚洲视频一区| 午夜精品福利一区二区三区av | 国产精品亚发布| 99re这里只有精品6| av成人免费在线| 欧美另类在线观看| 亚洲精品乱码久久久久久日本蜜臀 | 国内视频一区| 久久综合久久综合九色| 国产伦精品一区二区三区照片91| 一区二区三区四区五区在线| 一区二区毛片| 欧美日韩国产一区二区三区| 亚洲狠狠婷婷| 亚洲性xxxx| 国产精品www994| 亚洲女性裸体视频| 欧美综合二区| 国内精品久久久| 免费观看久久久4p| 亚洲美女黄色| 亚洲欧美日韩综合| 国产视频一区免费看| 久久精品麻豆| 亚洲成人在线免费| 免费在线日韩av| 亚洲国产一区二区三区在线播| 亚洲毛片在线观看| 国产精品成人一区二区三区夜夜夜| 亚洲视频欧美在线| 久久美女艺术照精彩视频福利播放| 伊人久久成人| 欧美久久久久| 亚洲欧美久久久| 免费在线观看精品| 亚洲视频日本| 狠狠色狠狠色综合日日小说| 美女成人午夜| 亚洲视频网站在线观看| 久久亚洲春色中文字幕| 亚洲精品在线视频| 国产日本亚洲高清| 欧美大片在线影院| 午夜精品久久久久久99热软件| 老妇喷水一区二区三区| 99热在线精品观看| 国产婷婷一区二区| 欧美成人一区二区在线| 亚洲一二三四区| 欧美大片在线看| 久久精品国产69国产精品亚洲| 亚洲欧洲精品一区二区三区不卡| 国产精品久久久久久影视 | 韩国精品在线观看| 欧美老女人xx| 久久久国产精品一区二区中文 | 国产精品久久久久久av福利软件 | 欧美日韩一二三四五区| 一本大道av伊人久久综合| 欧美影院成人| 亚洲美女区一区| 国语自产精品视频在线看抢先版结局 | 亚洲精品男同| 久久久久久综合| 亚洲一区二区精品| 亚洲日本成人| 精品va天堂亚洲国产| 国产精品毛片va一区二区三区| 欧美国产精品日韩| 久久亚洲精品中文字幕冲田杏梨| 亚洲欧美成人综合| 一本久道久久综合狠狠爱| 欧美成人精品不卡视频在线观看 | 麻豆av一区二区三区| 久久国内精品视频| 午夜精品理论片| 正在播放欧美一区| 国产亚洲精品aa午夜观看| 亚洲免费黄色| 国产偷自视频区视频一区二区| 欧美一级专区免费大片| 亚洲精品四区| 狠狠干综合网| 国产一区二区日韩精品| 欧美色一级片| 欧美日韩的一区二区| 欧美不卡一区| 欧美国产视频在线| 美国成人直播| 欧美高清hd18日本| 欧美v日韩v国产v| 麻豆精品网站| 欧美jizz19性欧美| 欧美激情视频一区二区三区在线播放| 久久人人爽人人| 免费日韩av电影| 欧美精品一区二区三区蜜臀 | 欧美精品在线一区二区| 欧美日韩亚洲不卡| 国产精品久久久久999| 国产精品看片你懂得| 国产精品一区二区三区免费观看| 国产精品丝袜白浆摸在线| 国产女人水真多18毛片18精品视频| 欧美在线亚洲在线| 国产日韩欧美电影在线观看| 亚洲欧美一区二区视频| 午夜在线成人av| 欧美一区二区三区免费大片| 欧美主播一区二区三区|