最大概率分詞問題及其解法,hit的劉挺等,1998
這篇文章前面給出的一些模型對(duì)我這個(gè)新手來說不錯(cuò)。后面對(duì)問題的解決一般。
第一個(gè)問題是找分割點(diǎn),這個(gè)很簡單,在找到每個(gè)點(diǎn)的最遠(yuǎn)距離后,O(n)掃一遍就可以了。
第二個(gè)問題是每個(gè)字段內(nèi)的最優(yōu)概率計(jì)算。這個(gè)如果按原有的概率算比較難,n-gram的n不確定,不過他這里用的是unigram
這樣就簡單多了。。取log以后最短路,dp啥的愛咋搞咋搞。