今天六一,C小加不在身邊,混球啊。任務(wù)需要在看曼寧的《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》。然后用到互信息,每次我覺(jué)得好高深的名字,做下去的時(shí)候就發(fā)現(xiàn)沒(méi)有那么難。
搭配
搭配由有限的復(fù)合構(gòu)詞法所描述。
識(shí)別搭配對(duì)的方法有三種:1.使用頻率信息的搭配識(shí)別。2.基于含義和主詞搭配詞之間的距離識(shí)別。3.基于假設(shè)測(cè)試和互信息的識(shí)別。
1.頻率
將語(yǔ)料過(guò)濾后得到的動(dòng)詞,名詞,之間進(jìn)行兩兩配對(duì),統(tǒng)計(jì)每個(gè)詞語(yǔ)在一個(gè)句子,或在一個(gè)段落中出現(xiàn)的次數(shù),即為頻率。
2.均值和方差
由于兩個(gè)詞之間的距離是可以變化的,計(jì)算兩個(gè)詞之間的偏移量的均值和方差。
均值就是簡(jiǎn)單的平均偏移量。
方差衡量的是單獨(dú)的偏移量偏離均值的距離:

是同現(xiàn)i的偏移量,
表示的是樣本偏移量的均值。
我們可以通過(guò)使用這個(gè)信息來(lái)發(fā)現(xiàn)搭配。具體的方法是通過(guò)尋找?guī)в械推畹脑~對(duì)。一個(gè)低的偏差值意味著這兩個(gè)詞通常大致相同距離出現(xiàn)。零偏差意味著這兩個(gè)詞總是以相同的距離出現(xiàn)。
方差是關(guān)于一個(gè)相對(duì)于其他詞分布峰值情況的度量。
關(guān)于互信息
互信息的計(jì)算公式是這樣的:
MI(a,b) = log( p(ab) / (p(a)*p(b)) )
其中log的底數(shù)是2,p(x)表示x出現(xiàn)的概率。
好吧,好水,好簡(jiǎn)單。。著手寫(xiě)代碼了。