• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            尼克舅姑

            Nick9Gu

            貝葉斯分類器實(shí)驗(yàn)

            使用的就是mitchell的那本ML中關(guān)于naive bayesian classifier講解用到的數(shù)據(jù)。20個郵件組的郵件,共約20000條記錄。

            主要是實(shí)踐了下naive bayesian classifier。做了兩個集合的實(shí)驗(yàn),包括全集和書中實(shí)踐的小集合(3個特定的郵件組集合)。
            全集上最后的準(zhǔn)確率可以達(dá)到83.7%。而使用小集合對比書中的(89%-90.5%),可以達(dá)到91.3%的準(zhǔn)確率。

            其中有一些需要注意的:
            1. 對低頻概率的光滑操作很重要。主要用于計算P(w|g)時在w頻次很低的情況下。
               如果沒有光滑,答案整個就被誤差毀了,直接準(zhǔn)確率掉到20%以下。
               如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保證結(jié)果達(dá)到預(yù)期水平
               如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))結(jié)果還更好些。這似乎和預(yù)期不是很符合。
            2. 對stopword的選取。
               使用idf作為選擇標(biāo)準(zhǔn)(不取log)。剛開始選定的覆蓋文章范圍在0.6才去除。后來發(fā)現(xiàn)一直到1/12都能保證單調(diào)遞增。效果不錯。
            3. 既然bayesian是逆概,還嘗試了正向概率計算求答案,也是使之相互獨(dú)立。準(zhǔn)確率在75%左右。懷疑是模型本身并不是reasonable的。(就是比naive bayesian還不靠譜)

            從誤分類的數(shù)據(jù)來看,有些確實(shí)是無法很好分類。同時后續(xù)改進(jìn)還有這么一些方法:
            1. 低頻詞的影響。
            2. 調(diào)整模型,使之更好去識別。這在看論文。看看是否可行。

            同時今天還看了一篇介紹bayesian的一些應(yīng)用之處的文章。講的很廣泛,把很多知識都串一起了。很好!



            posted on 2009-10-08 00:30 Nick9Gu 閱讀(2062) 評論(4)  編輯 收藏 引用 所屬分類: {IR-NLP-Data Mining}

            評論

            # re: 貝葉斯分類器實(shí)驗(yàn) 2009-10-08 15:34 SE7EN

            請問你是怎么對低頻概率進(jìn)行光滑操作的?  回復(fù)  更多評論   

            # re: 貝葉斯分類器實(shí)驗(yàn) 2009-10-08 17:48 Nick9Gu

            @SE7EN
            上面說的就是書上有一種+1方法。另外的方法應(yīng)該就是可以通過對測試case分兩部分去驗(yàn)證x/n的實(shí)際概率吧。  回復(fù)  更多評論   

            # re: 貝葉斯分類器實(shí)驗(yàn) 2009-10-09 13:45 argmax

            +1法不是為了求得實(shí)際概率,而是為了使得概率有意義,因?yàn)閚aive bayesian中需要用到iid條件,如果其中一個概率為0,那么整個概率就沒有意義了,所以需要用到平滑方法。并且用最大似然估計的概率本身就存在偏差,因?yàn)楫吘褂糜诮y(tǒng)計的語料總是有限的。通常現(xiàn)在不用+1法來平滑,而是用dirichlet方法估計。但是本質(zhì)上這幾種方法對于最后的結(jié)果都是大同小異。  回復(fù)  更多評論   

            # re: 貝葉斯分類器實(shí)驗(yàn) 2009-10-10 09:37 Nick9Gu

            @argmax
            恩,我到覺得既然在低頻的時候相當(dāng)于信息量就是確定的,在信息量確定的情況下無論用什么方法去估計都不會有太大差別。那么這時候用什么方法都只是一種因?yàn)椴煌耆嘈庞^察到的數(shù)據(jù)而平滑的過程。  回復(fù)  更多評論   

            導(dǎo)航

            <2009年10月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            統(tǒng)計

            常用鏈接

            留言簿(1)

            隨筆分類

            隨筆檔案

            最新隨筆

            搜索

            積分與排名

            最新評論

            閱讀排行榜

            評論排行榜

            国产精品99久久久久久www| 精品国产青草久久久久福利| 久久久精品一区二区三区| 精品久久久久久亚洲精品 | 欧美色综合久久久久久| 久久频这里精品99香蕉久| 九九精品99久久久香蕉| 久久国产精品偷99| 久久亚洲AV成人无码国产| 99热成人精品热久久669| 久久天天日天天操综合伊人av| 伊人久久大香线蕉综合Av| 国产激情久久久久影院小草 | 久久婷婷人人澡人人爽人人爱| 精品久久8x国产免费观看| 中文字幕精品无码久久久久久3D日动漫 | 久久久久亚洲AV片无码下载蜜桃| 香蕉久久夜色精品国产小说| 久久亚洲sm情趣捆绑调教 | 国内精品久久久久影院优| 免费精品久久久久久中文字幕| 国产精品久久国产精麻豆99网站| 天天做夜夜做久久做狠狠| 久久精品国产影库免费看| 亚洲精品无码久久久久sm| 久久精品国产亚洲av瑜伽| 久久久久久综合一区中文字幕 | 亚洲级αV无码毛片久久精品| 日韩十八禁一区二区久久| 精品久久久久久国产三级| 欧美噜噜久久久XXX| 久久久久婷婷| 国产香蕉97碰碰久久人人| 97精品久久天干天天天按摩 | 久久久久国产一区二区| 九九99精品久久久久久| 国产V综合V亚洲欧美久久| 天天爽天天狠久久久综合麻豆| 久久人与动人物a级毛片| 97视频久久久| 亚洲国产精品久久电影欧美|