亚洲欧洲日本一区二区三区,一区二区三区四区蜜桃,欧美裸体一区二区三区

貝葉斯分類器實驗

使用的就是mitchell的那本ML中關于naive bayesian classifier講解用到的數據。20個郵件組的郵件，共約20000條記錄。

主要是實踐了下naive bayesian classifier。做了兩個集合的實驗，包括全集和書中實踐的小集合（3個特定的郵件組集合）。
全集上最后的準確率可以達到83.7%。而使用小集合對比書中的（89%-90.5%），可以達到91.3%的準確率。

其中有一些需要注意的：
1. 對低頻概率的光滑操作很重要。主要用于計算P(w|g)時在w頻次很低的情況下。
   如果沒有光滑，答案整個就被誤差毀了，直接準確率掉到20%以下。
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words_in_g))可以保證結果達到預期水平
   如果使用P(w|g)=(C(g,w)+1)/(C(g,all_w)+C(words))結果還更好些。這似乎和預期不是很符合。
2. 對stopword的選取。
   使用idf作為選擇標準（不取log）。剛開始選定的覆蓋文章范圍在0.6才去除。后來發現一直到1/12都能保證單調遞增。效果不錯。
3. 既然bayesian是逆概，還嘗試了正向概率計算求答案，也是使之相互獨立。準確率在75%左右。懷疑是模型本身并不是reasonable的。（就是比naive bayesian還不靠譜）

從誤分類的數據來看，有些確實是無法很好分類。同時后續改進還有這么一些方法：
1. 低頻詞的影響。
2. 調整模型，使之更好去識別。這在看論文。看看是否可行。

同時今天還看了一篇介紹bayesian的一些應用之處的文章。講的很廣泛，把很多知識都串一起了。很好！

posted @ 2009-10-08 00:30 Nick9Gu 閱讀(2092) | 評論 (4) | 編輯收藏

{看論文}k最短路

Finding the k shortest paths, D Eppstein

這篇論文不錯。方法很好，但是我覺得讀的有點拗口。
說幾個重點nb的吧。
1. 能夠將路徑用最短路徑樹和“彎路”表示
2. 考慮到路徑的層次結構。
如果考慮到以上兩點會有很多啟發的，之后還有幾個nb的：
3. 把堆表示在dag上。
4. 這個最最nb,很容易考慮到每次找到一個最小后綴，然后更新堆，但這樣復雜度就是nm的。而其通過將每個點的后綴重新組織成一個小堆。就控制住復雜度了！

這篇論文之前比賽的時候就很想看，后來搞輸入法的時候又聽說了，還是沒時間看。今天花了一下午看了還是挺開心的。不過覺得他有的地方方法有些冗余或者說不是很優，什么時候再細細想想。今天好困。。。

posted @ 2009-06-14 22:44 Nick9Gu 閱讀(528) | 評論 (0) | 編輯收藏

{NLP}最大概率分詞問題及其解法

最大概率分詞問題及其解法，hit的劉挺等，1998

這篇文章前面給出的一些模型對我這個新手來說不錯。后面對問題的解決一般。
第一個問題是找分割點，這個很簡單，在找到每個點的最遠距離后，O(n)掃一遍就可以了。
第二個問題是每個字段內的最優概率計算。這個如果按原有的概率算比較難，n-gram的n不確定，不過他這里用的是unigram
這樣就簡單多了。。取log以后最短路，dp啥的愛咋搞咋搞。

posted @ 2009-06-06 12:00 Nick9Gu 閱讀(1652) | 評論 (5) | 編輯收藏

{解題報告}德黑蘭2005 [PKU2894-2903]

最近越來越懶了。。做題有頭沒尾的，貼個報告。德黑蘭2005的。還差一道題。

2894	Ancient Keyboard	858	Tehran 2005
2895	Best SMS to Type	909	Tehran 2005
2896	Changing Phone Numbers	98	Tehran 2005
2897	Dramatic Multiplications	614	Tehran 2005
2898	Entertainment	230	Tehran 2005
2899	Fortune at El Dorado	105	Tehran 2005
2900	Griddy Hobby	94	Tehran 2005
2901	Hotel	70	Tehran 2005
2902	Intercepting Missiles	31	Tehran 2005
2903	Joy of Mobile Routing	15	Tehran 2005

http://docs.google.com/Doc?id=dhc6v8gg_126gmw86hgd

posted @ 2008-11-07 16:08 Nick9Gu 閱讀(1120) | 評論 (1) | 編輯收藏

{解題報告} NEERC2005 解題報告，PKU2791-2801

這個寫的太匆忙了。。湊合看看吧。。

2791	Area 51	107	Northeastern Europe 2005
2792	Brackets Removal	81	Northeastern Europe 2005
2793	Cactus	103	Northeastern Europe 2005
2794	Double Patience	150	Northeastern Europe 2005
2795	Exploring Pyramids	191	Northeastern Europe 2005
2796	Feel Good	515	Northeastern Europe 2005
2797	Guards	34	Northeastern Europe 2005
2798	Hardwood Cutting	53	Northeastern Europe 2005
2799	IP Networks	422	Northeastern Europe 2005
2800		446	Northeastern Europe 2005
2801	Knockdown	22	Northeastern Europe 2005

http://m.shnenglu.com/Files/NickGu/neerc2005.pdf

posted @ 2008-10-23 16:40 Nick9Gu 閱讀(1240) | 評論 (0) | 編輯收藏

哈爾濱歸來

最終結果是金牌，但沒有進入Final。還是能接受的結果，但畢竟還有進步的余地，希望下次能再好點。
題目難度一般，不過閱讀和題量比較大，所以還是挺郁悶的。我當時基本都在敲代碼沒多少需要想的題。。
還是要多多練習啊。

PS.火車上聽說bamboo他們硬敲了D題。。700多行代碼無模板。。Orz。。

posted @ 2008-10-14 14:39 Nick9Gu 閱讀(267) | 評論 (1) | 編輯收藏

{思路} 關于學習，自我調節

最近其實看了很多相關的內容，比如Petr在某次TCHS前在房間里面和別人聊天的內容啊，之前自己也想過有時候自己太勉強自己了，應該在需要休息的時候放松啊。今天又覺得，其實像現在如果比較不在狀態的時候，可以嘗試去看看以前的筆記啊，寫點總結啊啥的。都挺好的。總之要自我調節，不可太急躁。

這篇日志作為一篇開放式的吧，我想到啥就過來加點，作為自己的一個小Tips。

我需要靜一靜，寫代碼是一項需要安靜的工作，做自己的就應該少說話。[2008年10月4日13:27:40]
昨天做一個問題一直在網上搜索沒有好的答案。但后來和小亮交流下回去自己靜靜想想就會了，其實并不復雜，但自己沒有靜下來好好想想才導致自己半天沒弄出來。

posted @ 2008-10-02 23:05 Nick9Gu 閱讀(214) | 評論 (0) | 編輯收藏

{解題報告} NWERC2003 解題報告，PKU1631-1638

還差一道題，先publish下這個beta版的，第一次用CTex寫的，呵呵。
總的來說這套題還是比較簡單的，數據也不強，不過也都要想想。

http://m.shnenglu.com/Files/NickGu/nwerc2003.pdf

題目列表：

1631	Bridging signals	824	Northwestern Europe 2003
1632	Vase collection	234	Northwestern Europe 2003
1633	Gladiators	101	Northwestern Europe 2003
1634		222	Northwestern Europe 2003
1635	Subway tree systems	426	Northwestern Europe 2003
1636	Prison rearrangement	166	Northwestern Europe 2003
1637	Sightseeing tour	287	Northwestern Europe 2003
1638	A number game	61	Northwestern Europe 2003

歡迎下載，如果誰會做最后一道麻煩給我留言。。有什么問題可以給我留言也可以電郵我。

posted @ 2008-10-02 00:15 Nick9Gu 閱讀(1575) | 評論 (1) | 編輯收藏

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

尼克舅姑

最大概率分詞問題及其解法，hit的劉挺等，1998

導航

統計

常用鏈接

留言簿(1)

隨筆分類

隨筆檔案

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜