使用的就是mitchell的那本ML中關(guān)于naive bayesian classifier講解用到的
數(shù)據(jù)。20個郵件組的郵件,共約20000條記錄。
主要是實(shí)踐了下naive bayesian classifier。做了兩個集合的實(shí)驗(yàn),包括全集和書中實(shí)踐的小集合(3個特定的郵件組集合)。
全集上最后的準(zhǔn)確率可以達(dá)到83.7%。而使用小集合對比書中的(89%-90.5%),可以達(dá)到91.3%的準(zhǔn)確率。
其中有一些需要注意的:
1. 對低頻概率的光滑操作很重要。主要用于計算P(w|g)時在w頻次很低的情況下。
如果沒有光滑,答案整個就被誤差毀了,直接準(zhǔn)確率掉到20%以下。
如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保證結(jié)果達(dá)到預(yù)期水平
如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))結(jié)果還更好些。這似乎和預(yù)期不是很符合。
2. 對stopword的選取。
使用idf作為選擇標(biāo)準(zhǔn)(不取log)。剛開始選定的覆蓋文章范圍在0.6才去除。后來發(fā)現(xiàn)一直到1/12都能保證單調(diào)遞增。效果不錯。
3. 既然bayesian是逆概,還嘗試了正向概率計算求答案,也是使之相互獨(dú)立。準(zhǔn)確率在75%左右。懷疑是模型本身并不是reasonable的。(就是比naive bayesian還不靠譜)
從誤分類的數(shù)據(jù)來看,有些確實(shí)是無法很好分類。同時后續(xù)改進(jìn)還有這么一些方法:
1. 低頻詞的影響。
2. 調(diào)整模型,使之更好去識別。這在看論文。看看是否可行。
同時今天還看了一篇介紹bayesian的一些應(yīng)用之處的
文章。講的很廣泛,把很多知識都串一起了。很好!