最大概率分詞問(wèn)題及其解法,hit的劉挺等,1998
這篇文章前面給出的一些模型對(duì)我這個(gè)新手來(lái)說(shuō)不錯(cuò)。后面對(duì)問(wèn)題的解決一般。
第一個(gè)問(wèn)題是找分割點(diǎn),這個(gè)很簡(jiǎn)單,在找到每個(gè)點(diǎn)的最遠(yuǎn)距離后,O(n)掃一遍就可以了。
第二個(gè)問(wèn)題是每個(gè)字段內(nèi)的最優(yōu)概率計(jì)算。這個(gè)如果按原有的概率算比較難,n-gram的n不確定,不過(guò)他這里用的是unigram
這樣就簡(jiǎn)單多了。。取log以后最短路,dp啥的愛(ài)咋搞咋搞。