青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

kenlistian

厚積薄發(fā). 勤為槳,思為帆

   :: 首頁 :: 新隨筆 ::  :: 聚合  :: 管理 ::
  73 隨筆 :: 4 文章 :: 22 評論 :: 0 Trackbacks
  中文分詞看似簡單,但其實(shí)不是一個(gè)小課題,我想在中文分詞上研究的絕不是一個(gè)兩個(gè)人就可以搞定的事情,不過因時(shí)置地的開發(fā)適合自己用的分詞也是不錯(cuò)的打算。不過能夠借用別人的研究結(jié)果而最大化的達(dá)到效果則也是一種辦法。
如果非要投入到中文分詞的研究中,就不能單純的在分詞中分詞.如很多時(shí)候我們自己讀一篇難以歧義的句子,都是通過上下文來判斷的,估計(jì)那個(gè)時(shí)候的分詞則是人工智能的領(lǐng)域.

下面全面介紹下其中文分類的細(xì)節(jié)
 

1. 如何進(jìn)行分詞?

  最容易想到的辦法是,用一個(gè)大詞典,把所有的詞都存入詞典中,掃描輸入的文本,查找所有可能的詞,然后看哪個(gè)詞可以做為輸出。例如:

輸入文本: 我是學(xué)生
詞: 我/是/學(xué)生

  其實(shí)這樣做了以后,可以解決60%的問題??偨Y(jié)起來,分詞的算法分為:
1. 基于字符串匹配的分詞方法
2. 基于理解的分詞方法
3. 基于統(tǒng)計(jì)的分詞方法

   關(guān)于這3種算法的詳細(xì)介紹,可以查看中文分詞技術(shù).


2.分詞的問題

 1.通用詞表和切分規(guī)范
   信息處理中分詞單位的定義比傳統(tǒng)意義上的詞更寬泛些。分詞系統(tǒng)可以面向解決實(shí)際問題的需求和真實(shí)語料中使用的頻繁程度來規(guī)定“分詞單位”。而傳統(tǒng)詞語是可能不包含所有的詞語的,例如,一些人名、地名、機(jī)構(gòu)名、外國人譯名,應(yīng)予以識(shí)別和切分。一些動(dòng)詞和形容詞重疊結(jié)構(gòu),如“高高大大”、“甜甜蜜蜜”等;一些附加詞,如后綴,“親和性”、“熱敏性”等;都可以作為分詞單位予以識(shí)別和切分。故對于一個(gè)分詞系統(tǒng)而言,制定一個(gè)一致性的分詞單位切分規(guī)范是需要考慮的.
2.歧義切分字段
  文本中歧義切分字段的判別。漢語中歧義切分字段最基本有兩種類型:
  交集型歧義字段,如:“中國/人”,“中/國人”兩種切分結(jié)果。 組合型歧義。如:“有/才能/”。“他/才/能/告訴/你”
3.未登錄詞識(shí)別(新詞)
  語言的發(fā)展和變化,以及詞的衍生現(xiàn)象非常普遍,不可能都收入辭典中。特別是人名、地名等專有名詞,在文本中有非常高的使用頻度和比例。
3.中文分詞解決方法

 a.處理新詞。

    如:2003年之前,沒有人知道"非典 "。"非典"剛出現(xiàn)的時(shí)候,這就是新詞。還有"超女", "三個(gè)代表","芙蓉姐姐"。識(shí)別新詞的能力是評估一個(gè)分詞系統(tǒng)的重要指標(biāo)。在國際上每年進(jìn)行的分詞大賽中,識(shí)別新詞的比賽也單獨(dú)提出。2006年 SIGHAN的分詞大賽中,就增添了對于機(jī)構(gòu)名識(shí)別的比賽。

  識(shí)別新詞是最近幾年分詞技術(shù)研究的重點(diǎn)??偨Y(jié)起來,無非分成兩種:
1. 基于規(guī)則的方法。
2. 基于統(tǒng)計(jì)、機(jī)器學(xué)習(xí)。

   拿人名識(shí)別為例。你不可能把所有的人名都放入詞典中,這決定了人名注定會(huì)是新詞。從人名構(gòu)造來說,很有規(guī)律:姓+名。張王劉李陳、天下一半人。也就是說可 能有一半的人,是這五個(gè)姓。名也有一定規(guī)律:建華/建國/志強(qiáng).....等有許多經(jīng)常用于名字中的漢字;對于地名識(shí)別也可以找出很多規(guī)則,省/縣/村/鎮(zhèn) /灣/河等,都是很常用的后綴,如果他們出現(xiàn),之前出現(xiàn)地名的可能性比較大。如果把這些規(guī)律轉(zhuǎn)化成計(jì)算機(jī)能識(shí)別的算法,就是基于規(guī)則的算法。這種基于規(guī)則 的算法簡單有效,而且發(fā)現(xiàn)規(guī)則可很方便加入。

   規(guī)則總會(huì)有例外,規(guī)則過多以后,如何去權(quán)衡這些規(guī)則,會(huì)是十分頭疼的問題。人們試著告訴計(jì)算機(jī)目標(biāo),讓計(jì)算機(jī)自己去嘗試各種方法組合這些規(guī)則并得到最優(yōu)參 數(shù),這就機(jī)器學(xué)習(xí)。隨著Machine Learning(機(jī)器學(xué)習(xí))技術(shù)的不斷進(jìn)步,其應(yīng)用范圍也越來越廣,中文分詞算法也從中受益。ANN(人工神經(jīng)網(wǎng)絡(luò)), 最大熵模型, HMM(隱馬爾可夫模型)等算法都在新詞識(shí)別中有應(yīng)用。

   通過機(jī)器學(xué)習(xí)識(shí)別新詞的原理并不復(fù)雜。一般都是先定義一些特征,然后利用訓(xùn)練語料進(jìn)行學(xué)習(xí),建立模 型。還是以人名識(shí)別為例,可以定義姓名前面的字、姓、名、姓名后面的字做為特征,通過利用標(biāo)注好姓名的語料庫進(jìn)行學(xué)習(xí)訓(xùn)練。

   機(jī)器學(xué)習(xí)識(shí)別新詞的好處在于自動(dòng)尋找一些識(shí)別新詞的特征,其準(zhǔn)確度和召回率都能達(dá)到比較高的水平。但機(jī)器學(xué)習(xí)算法需要有足夠多的訓(xùn)練語料,人工準(zhǔn)備準(zhǔn)確的 大規(guī)模的訓(xùn)練語料也會(huì)十分困難。另外,機(jī)器學(xué)習(xí)算法一般速度會(huì)比較慢,優(yōu)化速度,使之用于海量數(shù)據(jù)處理,也是使用機(jī)器學(xué)習(xí)的一個(gè)關(guān)鍵點(diǎn)。


4.目前分詞廣泛的方法

1.基于詞表的分詞-最大匹配(MM)
  這是一種有著廣泛應(yīng)用的機(jī)械分詞方法,該方法依據(jù)一個(gè)分詞詞表和一個(gè)基本的切分評估原則,即“長詞優(yōu)先”原則,來進(jìn)行分詞。這種評估原則雖然在大多數(shù)情況下是合理的,但也會(huì)引發(fā)一些切分錯(cuò)誤。根據(jù)我們小規(guī)模測試的結(jié)果,其正確率為95.422%,速度為65,000字/分鐘。
這種切分方法,需要最少的語言資源(僅需一個(gè)詞表,不需要任何詞法、句法、語義知識(shí)),程序?qū)崿F(xiàn)簡單,開發(fā)周期短,是一個(gè)簡單實(shí)用的方法。

2.基于統(tǒng)計(jì)的分詞
 這種方法首先切分出與詞表匹配的所有可能的詞,這種切分方法稱為“全切分”,運(yùn)用統(tǒng)計(jì)語言模型和決策算法決定最優(yōu)的切分結(jié)果。
這種方法的優(yōu)點(diǎn)是可以發(fā)現(xiàn)所有的切分歧義,但是解決歧義的方法很大程度上取決于統(tǒng)計(jì)語言模型的精度和決策算法。需要大量的標(biāo)注語料,并且分詞速度也因搜索空間的增大而有所緩慢。根據(jù)我們小規(guī)模測試的結(jié)果,其正確率為96.252%。分詞速度為:40,000字/分鐘。

3.基于規(guī)則和基于統(tǒng)計(jì)相結(jié)合
  這種方法首先運(yùn)用最大匹配作為一種初步切分,再對切分的邊界處進(jìn)行歧義探測,發(fā)現(xiàn)歧義。再運(yùn)用統(tǒng)計(jì)和規(guī)則結(jié)合的方法來判別正確的切分,運(yùn)用不同的規(guī)則解決人名、地名、機(jī)構(gòu)名識(shí)別,運(yùn)用詞法結(jié)構(gòu)規(guī)則來生成復(fù)合詞和衍生詞。 

  這段話來自微軟開發(fā)分詞的一段.







posted on 2007-09-18 17:54 kenlistian 閱讀(1764) 評論(3)  編輯 收藏 引用

評論

# 補(bǔ)充下3種分詞的方法 2007-09-18 18:05 kenlistian
來源于http://www.dedecms.com/html/chanpinxiazai/20061229/3.html
1、 基于字符串匹配的分詞方法
  這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優(yōu)先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。常用的幾種機(jī)械分詞方法如下:
  1)正向最大匹配法(由左到右的方向);
  2)逆向最大匹配法(由右到左的方向);
  3)最少切分(使每一句中切出的詞數(shù)最?。?br>  還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來構(gòu)成雙向匹配法。由于漢語單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。一般說來,逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。
  一種方法是改進(jìn)掃描方式,稱為特征掃描或標(biāo)志切分,優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率。另一種方法是將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對分詞決策提供幫助,并且在標(biāo)注過程中又反過來對分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而極大地提高切分的準(zhǔn)確率。
  對于機(jī)械分詞方法,可以建立一個(gè)一般的模型,在這方面有專業(yè)的學(xué)術(shù)論文,這里不做詳細(xì)論述。
  
2、 基于理解的分詞方法
  這種分詞方法是通過讓計(jì)算機(jī)模擬人對句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對分詞歧義進(jìn)行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息。由于漢語語言知識(shí)的籠統(tǒng)、復(fù)雜性,難以將各種語言信息組織成機(jī)器可直接讀取的形式,因此目前基于理解的分詞系統(tǒng)還處在試驗(yàn)階段。
  
3、 基于統(tǒng)計(jì)的分詞方法
  從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率。互現(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因而又叫做無詞典分詞法或統(tǒng)計(jì)取詞方法。但這種方法也有一定的局限性,會(huì)經(jīng)常抽出一些共現(xiàn)頻度高、但并不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識(shí)別精度差,時(shí)空開銷大。實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典(常用詞詞典)進(jìn)行串匹配分詞,同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞,即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來,既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn),又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。  回復(fù)  更多評論
  

# re: 中文分詞介紹1 2007-09-20 16:49 kenlistian
學(xué)校學(xué)費(fèi)要一次性交一千元
長春市長春節(jié)致詞
我在長春市長春藥店買藥
我看到長春市長春藥店買藥
劉善根本來就沒來

這幾個(gè)切的準(zhǔn)確的化,就說明分詞很好了.  回復(fù)  更多評論
  

# re: 中文分詞介紹1 2008-08-23 20:36
這有個(gè)免費(fèi)的中文分詞系統(tǒng),貌似還不錯(cuò),好像還在測試中說是要公開呢,不知道以后有開源的用沒
http://dev.8jiao.com/index.php/Wb_cws_index  回復(fù)  更多評論
  


只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            国产精品一区=区| 亚洲精品综合久久中文字幕| 国产亚洲欧美日韩一区二区| 久久深夜福利免费观看| 亚洲欧美日韩久久精品| 亚洲精品在线视频| 欧美久久久久久久久久| 一区二区视频在线观看| 久久精品1区| 亚洲欧美精品在线| 蜜桃久久精品一区二区| 亚洲欧美激情四射在线日 | 久久久久在线观看| 欧美亚洲一区二区三区| 亚洲欧洲在线一区| 久久riav二区三区| 精品91久久久久| 日韩午夜在线电影| 91久久久在线| 国产精品超碰97尤物18| 亚洲专区一二三| 国产一区二区日韩精品| 亚洲日韩第九十九页| **网站欧美大片在线观看| 欧美日韩在线看| 欧美日韩一区在线观看视频| 欧美深夜影院| 黄色资源网久久资源365| 亚洲国产日韩在线| 日韩天堂在线视频| 久久国产高清| 免费日韩成人| 日韩特黄影片| 欧美在线网站| 欧美成va人片在线观看| 国产精品无码永久免费888| 红桃视频成人| 亚洲综合首页| 女人天堂亚洲aⅴ在线观看| 日韩亚洲欧美成人一区| 久久福利电影| 国产精品日韩一区| 亚洲毛片网站| 欧美丰满高潮xxxx喷水动漫| 亚洲欧美日本另类| 欧美午夜免费| 一本色道久久综合亚洲精品小说 | 亚洲欧美一区二区精品久久久| 欧美淫片网站| 一区二区不卡在线视频 午夜欧美不卡在| 欧美一区二区在线观看| 欧美午夜精品理论片a级按摩| 国产又爽又黄的激情精品视频| 亚洲欧洲一区二区三区| 久久亚洲综合网| 亚洲私人影吧| 国产精品v欧美精品∨日韩| 99国产精品私拍| 亚洲国产精品黑人久久久| 久久蜜桃香蕉精品一区二区三区| 国产伦精品一区二区三区高清版 | 免费视频一区| 欧美一区二区三区视频免费播放| 国产精品videossex久久发布| 亚洲激情图片小说视频| 看片网站欧美日韩| 亚洲国产精品美女| 免费视频一区| 国产一区二区丝袜高跟鞋图片| 亚洲永久免费精品| 中文在线一区| 欧美色图麻豆| 香蕉久久夜色| 亚洲欧美日韩区| 国产亚洲a∨片在线观看| 欧美专区第一页| 久久久精品午夜少妇| 亚洲电影中文字幕| 亚洲福利国产| 欧美日韩国产成人在线91| 亚洲视频免费在线| 亚洲一区二区三区欧美| 国产日韩一区| 欧美黄色大片网站| 欧美黑人在线播放| 亚洲综合欧美日韩| 欧美在线首页| 日韩一区二区免费看| 一区二区福利| 狠狠色2019综合网| 亚洲国产精品免费| 国产精品一区视频| 欧美成人午夜视频| 欧美视频四区| 久久精品人人| 欧美chengren| 欧美一区二区成人6969| 久久这里有精品视频| 中文在线一区| 久久国产直播| 亚洲综合电影| 久久看片网站| 亚洲天堂久久| 蜜臀a∨国产成人精品| 亚洲先锋成人| 久久夜色精品国产欧美乱极品| 中日韩视频在线观看| 久久嫩草精品久久久精品| 99v久久综合狠狠综合久久| 亚洲自拍高清| 9久re热视频在线精品| 久久精品夜色噜噜亚洲aⅴ| 亚洲午夜视频| 久久午夜视频| 久久久亚洲成人| 国产精品久久久久三级| 欧美电影免费观看大全| 国产亚洲午夜| 在线视频中文亚洲| 亚洲日本aⅴ片在线观看香蕉| 午夜国产精品影院在线观看| 一本一本久久a久久精品牛牛影视| 欧美一区二区三区视频在线观看| 亚洲一区二区在线观看视频| 欧美777四色影视在线| 欧美a级片网站| 狠狠色丁香婷婷综合影院| 亚洲自拍16p| 亚洲免费视频成人| 欧美午夜一区二区三区免费大片| 欧美一区二区性| 久久久精彩视频| 欧美专区日韩视频| 欧美一区二区女人| 欧美午夜片在线免费观看| 亚洲欧洲一级| 日韩系列在线| 欧美区国产区| 亚洲美女电影在线| 亚洲精品中文字| 欧美国产日韩一区| 亚洲欧洲精品一区二区精品久久久 | 亚洲精品乱码久久久久久| 久久影音先锋| 免费久久99精品国产自在现线| 狠狠色狠狠色综合日日91app| 久久精品国产精品亚洲综合| 久久久久久一区二区| 激情视频一区二区| 久久综合给合久久狠狠狠97色69| 免费成人av在线看| 亚洲国产毛片完整版| 欧美理论大片| 亚洲影院在线观看| 久久久国产亚洲精品| 亚洲国产精品久久久| 欧美日韩ab| 午夜精品久久久久| 久久青草福利网站| 亚洲欧洲久久| 美女国产一区| 亚洲乱码国产乱码精品精98午夜| 亚洲男人第一网站| 激情成人中文字幕| 欧美日韩高清在线一区| 亚洲一级片在线看| 久久影音先锋| 一区二区三区欧美在线| 国产精品最新自拍| 欧美成人小视频| 亚洲欧美日韩国产| 亚洲国产天堂久久国产91| 性欧美xxxx大乳国产app| 在线色欧美三级视频| 国产精品超碰97尤物18| 久久米奇亚洲| 亚洲欧美日韩精品在线| 91久久精品国产91久久性色tv | 欧美国产日韩xxxxx| 欧美日韩调教| 久久精品网址| 中国亚洲黄色| 欧美 亚欧 日韩视频在线| 亚洲欧美bt| 亚洲精品美女久久久久| 国产日韩欧美综合一区| 欧美日韩在线影院| 欧美成人在线免费观看| 欧美一区免费视频| 亚洲一区中文字幕在线观看| 亚洲黄色影院| 欧美成人黑人xx视频免费观看| 欧美一区日韩一区| 亚洲自拍三区| 9i看片成人免费高清| 亚洲福利在线看| 精品成人一区二区三区四区| 欧美日韩一本到| 欧美精品久久一区二区| 午夜电影亚洲|