• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            尼克舅姑

            Nick9Gu

            2009年10月8日

            使用的就是mitchell的那本ML中關(guān)于naive bayesian classifier講解用到的數(shù)據(jù)。20個(gè)郵件組的郵件,共約20000條記錄。

            主要是實(shí)踐了下naive bayesian classifier。做了兩個(gè)集合的實(shí)驗(yàn),包括全集和書中實(shí)踐的小集合(3個(gè)特定的郵件組集合)。
            全集上最后的準(zhǔn)確率可以達(dá)到83.7%。而使用小集合對(duì)比書中的(89%-90.5%),可以達(dá)到91.3%的準(zhǔn)確率。

            其中有一些需要注意的:
            1. 對(duì)低頻概率的光滑操作很重要。主要用于計(jì)算P(w|g)時(shí)在w頻次很低的情況下。
               如果沒有光滑,答案整個(gè)就被誤差毀了,直接準(zhǔn)確率掉到20%以下。
               如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保證結(jié)果達(dá)到預(yù)期水平
               如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))結(jié)果還更好些。這似乎和預(yù)期不是很符合。
            2. 對(duì)stopword的選取。
               使用idf作為選擇標(biāo)準(zhǔn)(不取log)。剛開始選定的覆蓋文章范圍在0.6才去除。后來發(fā)現(xiàn)一直到1/12都能保證單調(diào)遞增。效果不錯(cuò)。
            3. 既然bayesian是逆概,還嘗試了正向概率計(jì)算求答案,也是使之相互獨(dú)立。準(zhǔn)確率在75%左右。懷疑是模型本身并不是reasonable的。(就是比naive bayesian還不靠譜)

            從誤分類的數(shù)據(jù)來看,有些確實(shí)是無法很好分類。同時(shí)后續(xù)改進(jìn)還有這么一些方法:
            1. 低頻詞的影響。
            2. 調(diào)整模型,使之更好去識(shí)別。這在看論文。看看是否可行。

            同時(shí)今天還看了一篇介紹bayesian的一些應(yīng)用之處的文章。講的很廣泛,把很多知識(shí)都串一起了。很好!



            posted @ 2009-10-08 00:30 Nick9Gu 閱讀(2056) | 評(píng)論 (4)編輯 收藏

            2009年6月14日

            Finding the k shortest paths, D Eppstein

            這篇論文不錯(cuò)。方法很好,但是我覺得讀的有點(diǎn)拗口。
            說幾個(gè)重點(diǎn)nb的吧。
            1. 能夠?qū)⒙窂接米疃搪窂綐浜?#8220;彎路”表示
            2. 考慮到路徑的層次結(jié)構(gòu)。
            如果考慮到以上兩點(diǎn)會(huì)有很多啟發(fā)的,之后還有幾個(gè)nb的:
            3. 把堆表示在dag上。
            4. 這個(gè)最最nb,很容易考慮到每次找到一個(gè)最小后綴,然后更新堆,但這樣復(fù)雜度就是nm的。而其通過將每個(gè)點(diǎn)的后綴重新組織成一個(gè)小堆。就控制住復(fù)雜度了!

            這篇論文之前比賽的時(shí)候就很想看,后來搞輸入法的時(shí)候又聽說了,還是沒時(shí)間看。今天花了一下午看了還是挺開心的。不過覺得他有的地方方法有些冗余或者說不是很優(yōu),什么時(shí)候再細(xì)細(xì)想想。今天好困。。。

            posted @ 2009-06-14 22:44 Nick9Gu 閱讀(502) | 評(píng)論 (0)編輯 收藏

            2009年6月6日

            最大概率分詞問題及其解法,hit的劉挺等,1998

            這篇文章前面給出的一些模型對(duì)我這個(gè)新手來說不錯(cuò)。后面對(duì)問題的解決一般。
            第一個(gè)問題是找分割點(diǎn),這個(gè)很簡(jiǎn)單,在找到每個(gè)點(diǎn)的最遠(yuǎn)距離后,O(n)掃一遍就可以了。
            第二個(gè)問題是每個(gè)字段內(nèi)的最優(yōu)概率計(jì)算。這個(gè)如果按原有的概率算比較難,n-gram的n不確定,不過他這里用的是unigram
            這樣就簡(jiǎn)單多了。。取log以后最短路,dp啥的愛咋搞咋搞。


            posted @ 2009-06-06 12:00 Nick9Gu 閱讀(1628) | 評(píng)論 (5)編輯 收藏

            2008年11月7日

            最近越來越懶了。。做題有頭沒尾的,貼個(gè)報(bào)告。德黑蘭2005的。還差一道題。

            2894 Ancient Keyboard 858 Tehran 2005
            2895 Best SMS to Type 909 Tehran 2005
            2896 Changing Phone Numbers 98 Tehran 2005
            2897 Dramatic Multiplications 614 Tehran 2005
            2898 Entertainment 230 Tehran 2005
            2899 Fortune at El Dorado 105 Tehran 2005
            2900 Griddy Hobby 94 Tehran 2005
            2901 Hotel 70 Tehran 2005
            2902 Intercepting Missiles 31 Tehran 2005
              2903 Joy of Mobile Routing 15 Tehran 2005


            http://docs.google.com/Doc?id=dhc6v8gg_126gmw86hgd

            posted @ 2008-11-07 16:08 Nick9Gu 閱讀(1096) | 評(píng)論 (1)編輯 收藏

            2008年10月23日

            這個(gè)寫的太匆忙了。。湊合看看吧。。


            2791 Area 51 107 Northeastern Europe 2005
            2792 Brackets Removal 81 Northeastern Europe 2005
            2793 Cactus 103 Northeastern Europe 2005
            2794 Double Patience 150 Northeastern Europe 2005
            2795 Exploring Pyramids 191 Northeastern Europe 2005
            2796 Feel Good 515 Northeastern Europe 2005
            2797 Guards 34 Northeastern Europe 2005
            2798 Hardwood Cutting 53 Northeastern Europe 2005
            2799 IP Networks 422 Northeastern Europe 2005
            2800 446 Northeastern Europe 2005
            2801 Knockdown 22 Northeastern Europe 2005


            http://m.shnenglu.com/Files/NickGu/neerc2005.pdf

            posted @ 2008-10-23 16:40 Nick9Gu 閱讀(1220) | 評(píng)論 (0)編輯 收藏

            2008年10月14日

            最終結(jié)果是金牌,但沒有進(jìn)入Final。還是能接受的結(jié)果,但畢竟還有進(jìn)步的余地,希望下次能再好點(diǎn)。
            題目難度一般,不過閱讀和題量比較大,所以還是挺郁悶的。我當(dāng)時(shí)基本都在敲代碼沒多少需要想的題。。
            還是要多多練習(xí)啊。

            PS.火車上聽說bamboo他們硬敲了D題。。700多行代碼無模板。。Orz。。

            posted @ 2008-10-14 14:39 Nick9Gu 閱讀(244) | 評(píng)論 (1)編輯 收藏

            2008年10月2日

            最近其實(shí)看了很多相關(guān)的內(nèi)容,比如Petr在某次TCHS前在房間里面和別人聊天的內(nèi)容啊,之前自己也想過有時(shí)候自己太勉強(qiáng)自己了,應(yīng)該在需要休息的時(shí)候放松啊。今天又覺得,其實(shí)像現(xiàn)在如果比較不在狀態(tài)的時(shí)候,可以嘗試去看看以前的筆記啊,寫點(diǎn)總結(jié)啊啥的。都挺好的。總之要自我調(diào)節(jié),不可太急躁。

            這篇日志作為一篇開放式的吧,我想到啥就過來加點(diǎn),作為自己的一個(gè)小Tips。

            • 我需要靜一靜,寫代碼是一項(xiàng)需要安靜的工作,做自己的就應(yīng)該少說話。[2008年10月4日13:27:40]
            • 昨天做一個(gè)問題一直在網(wǎng)上搜索沒有好的答案。但后來和小亮交流下回去自己靜靜想想就會(huì)了,其實(shí)并不復(fù)雜,但自己沒有靜下來好好想想才導(dǎo)致自己半天沒弄出來。
            posted @ 2008-10-02 23:05 Nick9Gu 閱讀(193) | 評(píng)論 (0)編輯 收藏
            還差一道題,先publish下這個(gè)beta版的,第一次用CTex寫的,呵呵。
            總的來說這套題還是比較簡(jiǎn)單的,數(shù)據(jù)也不強(qiáng),不過也都要想想。

            http://m.shnenglu.com/Files/NickGu/nwerc2003.pdf

            題目列表:

            1631 Bridging signals 824 Northwestern Europe 2003
            1632 Vase collection 234 Northwestern Europe 2003
            1633 Gladiators 101 Northwestern Europe 2003
            1634 222 Northwestern Europe 2003
            1635 Subway tree systems 426 Northwestern Europe 2003
            1636 Prison rearrangement 166 Northwestern Europe 2003
            1637 Sightseeing tour 287 Northwestern Europe 2003
            1638 A number game 61 Northwestern Europe 2003


            歡迎下載,如果誰會(huì)做最后一道麻煩給我留言。。有什么問題可以給我留言也可以電郵我。


            posted @ 2008-10-02 00:15 Nick9Gu 閱讀(1546) | 評(píng)論 (1)編輯 收藏
            僅列出標(biāo)題  

            導(dǎo)航

            <2025年5月>
            27282930123
            45678910
            11121314151617
            18192021222324
            25262728293031
            1234567

            統(tǒng)計(jì)

            常用鏈接

            留言簿(1)

            隨筆分類

            隨筆檔案

            最新隨筆

            搜索

            積分與排名

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

            国产免费久久精品99re丫y| 国内精品久久久久影院优| 国产精品久久国产精品99盘 | 欧美久久精品一级c片片| 日韩精品久久无码人妻中文字幕| 久久伊人五月天论坛| 久久精品免费网站网| 久久精品中文字幕一区| 久久93精品国产91久久综合| 久久91这里精品国产2020| 一本久久免费视频| 人妻久久久一区二区三区| 久久国产精品无码HDAV| 国产精品99久久99久久久| 99精品久久精品| 久久93精品国产91久久综合| 亚洲欧洲久久久精品| 亚洲国产精品无码久久SM| 国产精品禁18久久久夂久| 91精品国产高清久久久久久国产嫩草 | 久久丫忘忧草产品| 久久综合精品国产二区无码| 99久久久精品| 亚洲美日韩Av中文字幕无码久久久妻妇| 久久人妻少妇嫩草AV蜜桃| 亚洲午夜久久久影院| 韩国无遮挡三级久久| 污污内射久久一区二区欧美日韩| 色综合久久综合中文综合网| 久久亚洲欧美日本精品| 久久婷婷国产剧情内射白浆 | 亚洲精品无码专区久久同性男| 中文国产成人精品久久不卡| 国产精品久久久久影院色| 热综合一本伊人久久精品 | 精品伊人久久大线蕉色首页| 久久久一本精品99久久精品88| 国产香蕉97碰碰久久人人| 久久亚洲日韩看片无码| 久久中文精品无码中文字幕| 久久棈精品久久久久久噜噜|