亚洲av日韩精品久久久久久a ,无码伊人66久久大杳蕉网站谷歌 ,久久99国产亚洲高清观看首页

貝葉斯分類器實驗

使用的就是mitchell的那本ML中關于naive bayesian classifier講解用到的數據。20個郵件組的郵件，共約20000條記錄。

主要是實踐了下naive bayesian classifier。做了兩個集合的實驗，包括全集和書中實踐的小集合（3個特定的郵件組集合）。
全集上最后的準確率可以達到83.7%。而使用小集合對比書中的（89%-90.5%），可以達到91.3%的準確率。

其中有一些需要注意的：
1. 對低頻概率的光滑操作很重要。主要用于計算P(w|g)時在w頻次很低的情況下。
   如果沒有光滑，答案整個就被誤差毀了，直接準確率掉到20%以下。
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保證結果達到預期水平
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))結果還更好些。這似乎和預期不是很符合。
2. 對stopword的選取。
   使用idf作為選擇標準（不取log）。剛開始選定的覆蓋文章范圍在0.6才去除。后來發現一直到1/12都能保證單調遞增。效果不錯。
3. 既然bayesian是逆概，還嘗試了正向概率計算求答案，也是使之相互獨立。準確率在75%左右。懷疑是模型本身并不是reasonable的。（就是比naive bayesian還不靠譜）

從誤分類的數據來看，有些確實是無法很好分類。同時后續改進還有這么一些方法：
1. 低頻詞的影響。
2. 調整模型，使之更好去識別。這在看論文。看看是否可行。

同時今天還看了一篇介紹bayesian的一些應用之處的文章。講的很廣泛，把很多知識都串一起了。很好！

posted on 2009-10-08 00:30 Nick9Gu 閱讀(2062) 評論(4) 編輯收藏引用所屬分類: {IR-NLP-Data Mining}

+1法不是為了求得實際概率，而是為了使得概率有意義，因為naive bayesian中需要用到iid條件，如果其中一個概率為0，那么整個概率就沒有意義了，所以需要用到平滑方法。并且用最大似然估計的概率本身就存在偏差，因為畢竟用于統計的語料總是有限的。通常現在不用+1法來平滑，而是用dirichlet方法估計。但是本質上這幾種方法對于最后的結果都是大同小異。回復更多評論

# re: 貝葉斯分類器實驗 2009-10-10 09:37 Nick9Gu

@argmax
恩，我到覺得既然在低頻的時候相當于信息量就是確定的，在信息量確定的情況下無論用什么方法去估計都不會有太大差別。那么這時候用什么方法都只是一種因為不完全相信觀察到的數據而平滑的過程。回復更多評論

刷新評論列表

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: 貝葉斯分類器實驗 {看論文}k最短路 {NLP}最大概率分詞問題及其解法

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

# re: 貝葉斯分類器實驗 2009-10-08 15:34 SE7EN

# re: 貝葉斯分類器實驗 2009-10-08 17:48 Nick9Gu

# re: 貝葉斯分類器實驗 2009-10-09 13:45 argmax

# re: 貝葉斯分類器實驗 2009-10-10 09:37 Nick9Gu

尼克舅姑

貝葉斯分類器實驗

評論

導航

統計

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜