青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

來吧,朋友!

為C++瘋狂

svm系列(四)

現(xiàn)在我們已經(jīng)把一個(gè)本來線性不可分的文本分類問題,通過映射到高維空間而變成了線性可分的。就像下圖這樣:

 

image

圓形和方形的點(diǎn)各有成千上萬個(gè)(畢竟,這就是我們訓(xùn)練集中文檔的數(shù)量嘛,當(dāng)然很大了)。現(xiàn)在想象我們有另一個(gè)訓(xùn)練集,只比原先這個(gè)訓(xùn)練集多了一篇文章,映射到高維空間以后(當(dāng)然,也使用了相同的核函數(shù)),也就多了一個(gè)樣本點(diǎn),但是這個(gè)樣本的位置是這樣的:

image

 

就是圖中黃色那個(gè)點(diǎn),它是方形的,因而它是負(fù)類的一個(gè)樣本,這單獨(dú)的一個(gè)樣本,使得原本線性可分的問題變成了線性不可分的。這樣類似的問題(僅有少數(shù)點(diǎn)線性不可分)叫做“近似線性可分”的問題。

以我們?nèi)祟惖某WR(shí)來判斷,說有一萬個(gè)點(diǎn)都符合某種規(guī)律(因而線性可分),有一個(gè)點(diǎn)不符合,那這一個(gè)點(diǎn)是否就代表了分類規(guī)則中我們沒有考慮到的方面呢(因而規(guī)則應(yīng)該為它而做出修改)?

其實(shí)我們會(huì)覺得,更有可能的是,這個(gè)樣本點(diǎn)壓根就是錯(cuò)誤,是噪聲,是提供訓(xùn)練集的同學(xué)人工分類時(shí)一打瞌睡錯(cuò)放進(jìn)去的。所以我們會(huì)簡單的忽略這個(gè)樣本點(diǎn),仍然使用原來的分類器,其效果絲毫不受影響。

但這種對(duì)噪聲的容錯(cuò)性是人的思維帶來的,我們的程序可沒有。由于我們?cè)镜膬?yōu)化問題的表達(dá)式中,確實(shí)要考慮所有的樣本點(diǎn)(不能忽略某一個(gè),因?yàn)槌绦蛩趺粗涝摵雎阅囊粋€(gè)呢?),在此基礎(chǔ)上尋找正負(fù)類之間的最大幾何間隔,而幾何間隔本身代表的是距離,是非負(fù)的,像上面這種有噪聲的情況會(huì)使得整個(gè)問題無解。這種解法其實(shí)也叫做“硬間隔”分類法,因?yàn)樗残缘囊笏袠颖军c(diǎn)都滿足和分類平面間的距離必須大于某個(gè)值。

因此由上面的例子中也可以看出,硬間隔的分類法其結(jié)果容易受少數(shù)點(diǎn)的控制,這是很危險(xiǎn)的(盡管有句話說真理總是掌握在少數(shù)人手中,但那不過是那一小撮人聊以自慰的詞句罷了,咱還是得民主)。

但解決方法也很明顯,就是仿照人的思路,允許一些點(diǎn)到分類平面的距離不滿足原先的要求。由于不同的訓(xùn)練集各點(diǎn)的間距尺度不太一樣,因此用間隔(而不是幾何間隔)來衡量有利于我們表達(dá)形式的簡潔。我們?cè)葘?duì)樣本點(diǎn)的要求是:

 

clip_image002

意思是說離分類面最近的樣本點(diǎn)函數(shù)間隔也要比1大。如果要引入容錯(cuò)性,就給1這個(gè)硬性的閾值加一個(gè)松弛變量,即允許

clip_image002[5]

因?yàn)樗沙谧兞渴欠秦?fù)的,因此最終的結(jié)果是要求間隔可以比1小。但是當(dāng)某些點(diǎn)出現(xiàn)這種間隔比1小的情況時(shí)(這些點(diǎn)也叫離群點(diǎn)),意味著我們放棄了對(duì)這些點(diǎn)的精確分類,而這對(duì)我們的分類器來說是種損失。但是放棄這些點(diǎn)也帶來了好處,那就是使分類面不必向這些點(diǎn)的方向移動(dòng),因而可以得到更大的幾何間隔(在低維空間看來,分類邊界也更平滑)。顯然我們必須權(quán)衡這種損失和好處。好處很明顯,我們得到的分類間隔越大,好處就越多。回顧我們?cè)嫉挠查g隔分類對(duì)應(yīng)的優(yōu)化問題:

clip_image002[7]

||w||2就是我們的目標(biāo)函數(shù)(當(dāng)然系數(shù)可有可無),希望它越小越好,因而損失就必然是一個(gè)能使之變大的量(能使它變小就不叫損失了,我們本來就希望目標(biāo)函數(shù)值越小越好)。那如何來衡量損失,有兩種常用的方式,有人喜歡用

clip_image002[9]

而有人喜歡用

clip_image002[11]

其中l(wèi)都是樣本的數(shù)目。兩種方法沒有大的區(qū)別。如果選擇了第一種,得到的方法的就叫做二階軟間隔分類器,第二種就叫做一階軟間隔分類器。把損失加入到目標(biāo)函數(shù)里的時(shí)候,就需要一個(gè)懲罰因子(cost,也就是libSVM的諸多參數(shù)中的C),原來的優(yōu)化問題就變成了下面這樣:

clip_image002[13]

這個(gè)式子有這么幾點(diǎn)要注意:

一是并非所有的樣本點(diǎn)都有一個(gè)松弛變量與其對(duì)應(yīng)。實(shí)際上只有“離群點(diǎn)”才有,或者也可以這么看,所有沒離群的點(diǎn)松弛變量都等于0(對(duì)負(fù)類來說,離群點(diǎn)就是在前面圖中,跑到H2右側(cè)的那些負(fù)樣本點(diǎn),對(duì)正類來說,就是跑到H1左側(cè)的那些正樣本點(diǎn))。

二是松弛變量的值實(shí)際上標(biāo)示出了對(duì)應(yīng)的點(diǎn)到底離群有多遠(yuǎn),值越大,點(diǎn)就越遠(yuǎn)。

三是懲罰因子C決定了你有多重視離群點(diǎn)帶來的損失,顯然當(dāng)所有離群點(diǎn)的松弛變量的和一定時(shí),你定的C越大,對(duì)目標(biāo)函數(shù)的損失也越大,此時(shí)就暗示著你非常不愿意放棄這些離群點(diǎn),最極端的情況是你把C定為無限大,這樣只要稍有一個(gè)點(diǎn)離群,目標(biāo)函數(shù)的值馬上變成無限大,馬上讓問題變成無解,這就退化成了硬間隔問題。

四是懲罰因子C是一個(gè)變量,整個(gè)優(yōu)化問題在解的時(shí)候,C是一個(gè)你必須事先指定的值,指定這個(gè)值以后,解一下,得到一個(gè)分類器,然后用測(cè)試數(shù)據(jù)看看結(jié)果怎么樣,如果不夠好,換一個(gè)C的值,再解一次優(yōu)化問題,得到另一個(gè)分類器,再看看效果,如此就是一個(gè)參數(shù)尋優(yōu)的過程,但這和優(yōu)化問題本身決不是一回事,優(yōu)化問題在解的過程中,C一直是定值,要記住。

五是盡管加了松弛變量這么一說,但這個(gè)優(yōu)化問題仍然是一個(gè)優(yōu)化問題(汗,這不廢話么),解它的過程比起原始的硬間隔問題來說,沒有任何更加特殊的地方。

從大的方面說優(yōu)化問題解的過程,就是先試著確定一下w,也就是確定了前面圖中的三條直線,這時(shí)看看間隔有多大,又有多少點(diǎn)離群,把目標(biāo)函數(shù)的值算一算,再換一組三條直線(你可以看到,分類的直線位置如果移動(dòng)了,有些原來離群的點(diǎn)會(huì)變得不再離群,而有的本來不離群的點(diǎn)會(huì)變成離群點(diǎn)),再把目標(biāo)函數(shù)的值算一算,如此往復(fù)(迭代),直到最終找到目標(biāo)函數(shù)最小時(shí)的w。

啰嗦了這么多,讀者一定可以馬上自己總結(jié)出來,松弛變量也就是個(gè)解決線性不可分問題的方法罷了,但是回想一下,核函數(shù)的引入不也是為了解決線性不可分的問題么?為什么要為了一個(gè)問題使用兩種方法呢?

其實(shí)兩者還有微妙的不同。一般的過程應(yīng)該是這樣,還以文本分類為例。在原始的低維空間中,樣本相當(dāng)?shù)牟豢煞郑瑹o論你怎么找分類平面,總會(huì)有大量的離群點(diǎn),此時(shí)用核函數(shù)向高維空間映射一下,雖然結(jié)果仍然是不可分的,但比原始空間里的要更加接近線性可分的狀態(tài)(就是達(dá)到了近似線性可分的狀態(tài)),此時(shí)再用松弛變量處理那些少數(shù)“冥頑不化”的離群點(diǎn),就簡單有效得多啦。

本節(jié)中的(式1)也確實(shí)是支持向量機(jī)最最常用的形式。至此一個(gè)比較完整的支持向量機(jī)框架就有了,簡單說來,支持向量機(jī)就是使用了核函數(shù)的軟間隔線性分類法。

下一節(jié)會(huì)說說松弛變量剩下的一點(diǎn)點(diǎn)東西,順便搞個(gè)讀者調(diào)查,看看大家還想侃侃SVM的哪些方面。

接下來要說的東西其實(shí)不是松弛變量本身,但由于是為了使用松弛變量才引入的,因此放在這里也算合適,那就是懲罰因子C。回頭看一眼引入了松弛變量以后的優(yōu)化問題:

clip_image002

注意其中C的位置,也可以回想一下C所起的作用(表征你有多么重視離群點(diǎn),C越大越重視,越不想丟掉它們)。這個(gè)式子是以前做SVM的人寫的,大家也就這么用,但沒有任何規(guī)定說必須對(duì)所有的松弛變量都使用同一個(gè)懲罰因子,我們完全可以給每一個(gè)離群點(diǎn)都使用不同的C,這時(shí)就意味著你對(duì)每個(gè)樣本的重視程度都不一樣,有些樣本丟了也就丟了,錯(cuò)了也就錯(cuò)了,這些就給一個(gè)比較小的C;而有些樣本很重要,決不能分類錯(cuò)誤(比如中央下達(dá)的文件啥的,笑),就給一個(gè)很大的C。

當(dāng)然實(shí)際使用的時(shí)候并沒有這么極端,但一種很常用的變形可以用來解決分類問題中樣本的“偏斜”問題。

先來說說樣本的偏斜問題,也叫數(shù)據(jù)集偏斜(unbalanced),它指的是參與分類的兩個(gè)類別(也可以指多個(gè)類別)樣本數(shù)量差異很大。比如說正類有10,000個(gè)樣本,而負(fù)類只給了100個(gè),這會(huì)引起的問題顯而易見,可以看看下面的圖:

image

 

方形的點(diǎn)是負(fù)類。H,H1,H2是根據(jù)給的樣本算出來的分類面,由于負(fù)類的樣本很少很少,所以有一些本來是負(fù)類的樣本點(diǎn)沒有提供,比如圖中兩個(gè)灰色的方形點(diǎn),如果這兩個(gè)點(diǎn)有提供的話,那算出來的分類面應(yīng)該是H’,H2’和H1,他們顯然和之前的結(jié)果有出入,實(shí)際上負(fù)類給的樣本點(diǎn)越多,就越容易出現(xiàn)在灰色點(diǎn)附近的點(diǎn),我們算出的結(jié)果也就越接近于真實(shí)的分類面。但現(xiàn)在由于偏斜的現(xiàn)象存在,使得數(shù)量多的正類可以把分類面向負(fù)類的方向“推”,因而影響了結(jié)果的準(zhǔn)確性。

對(duì)付數(shù)據(jù)集偏斜問題的方法之一就是在懲罰因子上作文章,想必大家也猜到了,那就是給樣本數(shù)量少的負(fù)類更大的懲罰因子,表示我們重視這部分樣本(本來數(shù)量就少,再拋棄一些,那人家負(fù)類還活不活了),因此我們的目標(biāo)函數(shù)中因松弛變量而損失的部分就變成了:

 

clip_image002[5]

其中i=1…p都是正樣本,j=p+1…p+q都是負(fù)樣本。libSVM這個(gè)算法包在解決偏斜問題的時(shí)候用的就是這種方法。

那C+和C-怎么確定呢?它們的大小是試出來的(參數(shù)調(diào)優(yōu)),但是他們的比例可以有些方法來確定。咱們先假定說C+是5這么大,那確定C-的一個(gè)很直觀的方法就是使用兩類樣本數(shù)的比來算,對(duì)應(yīng)到剛才舉的例子,C-就可以定為500這么大(因?yàn)?0,000:100=100:1嘛)。

但是這樣并不夠好,回看剛才的圖,你會(huì)發(fā)現(xiàn)正類之所以可以“欺負(fù)”負(fù)類,其實(shí)并不是因?yàn)樨?fù)類樣本少,真實(shí)的原因是負(fù)類的樣本分布的不夠廣(沒擴(kuò)充到負(fù)類本應(yīng)該有的區(qū)域)。說一個(gè)具體點(diǎn)的例子,現(xiàn)在想給政治類和體育類的文章做分類,政治類文章很多,而體育類只提供了幾篇關(guān)于籃球的文章,這時(shí)分類會(huì)明顯偏向于政治類,如果要給體育類文章增加樣本,但增加的樣本仍然全都是關(guān)于籃球的(也就是說,沒有足球,排球,賽車,游泳等等),那結(jié)果會(huì)怎樣呢?雖然體育類文章在數(shù)量上可以達(dá)到與政治類一樣多,但過于集中了,結(jié)果仍會(huì)偏向于政治類!所以給C+和C-確定比例更好的方法應(yīng)該是衡量他們分布的程度。比如可以算算他們?cè)诳臻g中占據(jù)了多大的體積,例如給負(fù)類找一個(gè)超球——就是高維空間里的球啦——它可以包含所有負(fù)類的樣本,再給正類找一個(gè),比比兩個(gè)球的半徑,就可以大致確定分布的情況。顯然半徑大的分布就比較廣,就給小一點(diǎn)的懲罰因子。

但是這樣還不夠好,因?yàn)橛械念悇e樣本確實(shí)很集中,這不是提供的樣本數(shù)量多少的問題,這是類別本身的特征(就是某些話題涉及的面很窄,例如計(jì)算機(jī)類的文章就明顯不如文化類的文章那么“天馬行空”),這個(gè)時(shí)候即便超球的半徑差異很大,也不應(yīng)該賦予兩個(gè)類別不同的懲罰因子。

看到這里讀者一定瘋了,因?yàn)檎f來說去,這豈不成了一個(gè)解決不了的問題?然而事實(shí)如此,完全的方法是沒有的,根據(jù)需要,選擇實(shí)現(xiàn)簡單又合用的就好(例如libSVM就直接使用樣本數(shù)量的比)。

posted on 2009-07-09 14:37 yanghaibao 閱讀(157) 評(píng)論(0)  編輯 收藏 引用

導(dǎo)航

<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

統(tǒng)計(jì)

常用鏈接

留言簿

隨筆分類

隨筆檔案

文章檔案

收藏夾

Good blogs

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美顶级大胆免费视频| 久久久综合香蕉尹人综合网| 久久免费高清| 欧美亚洲免费高清在线观看| 国产在线一区二区三区四区| 欧美一级片在线播放| 亚洲女人av| 亚洲精品久久久久| 亚洲精品免费一二三区| 国产性做久久久久久| 亚洲在线免费视频| 亚洲制服丝袜在线| 欧美a级大片| 久久成人一区二区| 久久久午夜精品| 亚洲精品在线观| 亚洲视频二区| 黄色成人在线免费| 亚洲国产清纯| 国产欧美日韩精品专区| 久久久久高清| 欧美激情aⅴ一区二区三区| 亚洲欧美日本视频在线观看| 另类春色校园亚洲| 久久久97精品| 国精品一区二区| 性欧美video另类hd性玩具| 一区二区三区四区五区精品| 欧美日韩免费在线| 一本一道久久综合狠狠老精东影业| 欧美成人69av| 美日韩精品免费| 亚洲激情视频网站| 亚洲第一福利社区| 欧美电影在线观看| 国产亚洲一二三区| 久久免费视频在线| 一本色道久久综合狠狠躁篇怎么玩 | 亚洲乱码国产乱码精品精 | 巨乳诱惑日韩免费av| 一区二区在线视频| 久久青青草原一区二区| 99国产欧美久久久精品| 亚洲手机在线| 亚洲精品一区二区三区四区高清 | 欧美成人一区二区在线| 国产精品毛片| 亚洲一区二区三区免费视频| 欧美亚洲色图校园春色| 99精品热视频| 噜噜噜躁狠狠躁狠狠精品视频| 久久精品国产69国产精品亚洲| 国产精品久久久久免费a∨大胸| 亚洲日本电影| 亚洲黄一区二区| 久久久人成影片一区二区三区 | 欧美日韩在线影院| 日韩视频免费| 99ri日韩精品视频| 欧美成人精品三级在线观看| 牛牛国产精品| 日韩视频免费| 欧美精品色网| 久久综合影视| 亚洲经典在线| 欧美日韩一区二区高清| 一本色道久久综合亚洲精品不| 亚洲自拍三区| 国产日韩三区| 开元免费观看欧美电视剧网站| 亚洲国产精品久久| 亚洲少妇在线| 国产九九视频一区二区三区| 久久精品国产免费看久久精品| 欧美成人国产va精品日本一级| 亚洲精品一区二区三区四区高清| 欧美日韩精品一区二区天天拍小说| 一本色道久久88精品综合| 亚洲欧美区自拍先锋| 韩国视频理论视频久久| 免费的成人av| 这里只有精品视频在线| 久久国产精品免费一区| 在线免费观看日韩欧美| 欧美日韩一区二区欧美激情| 午夜精品福利一区二区三区av| 美女精品国产| 一区二区欧美在线观看| 国产精品一区二区三区久久| 久久色在线播放| 夜夜嗨av一区二区三区网站四季av | 久久精品国亚洲| 国产精品国产三级国产普通话蜜臀| 亚洲免费在线看| 欧美a级理论片| 一区二区三区日韩欧美精品| 国产一区亚洲| 欧美精彩视频一区二区三区| 亚洲欧美视频在线观看视频| 欧美国产日本在线| 欧美亚洲一区二区在线| 亚洲一区三区电影在线观看| 一区二区三区视频在线看| 欧美精品日韩一区| 午夜在线a亚洲v天堂网2018| 亚洲国产精品第一区二区| 欧美一区二区高清在线观看| 亚洲精品一区二区在线| 国产日产亚洲精品系列| 欧美精品麻豆| 亚洲专区一二三| 欧美午夜精品| 午夜一区二区三区不卡视频| 久久夜色精品亚洲噜噜国产mv| 伊人狠狠色丁香综合尤物| 另类综合日韩欧美亚洲| 亚洲欧洲在线一区| 日韩亚洲欧美一区二区三区| 一区二区激情视频| 亚洲精品国产欧美| 日韩视频在线观看| 欧美性猛交视频| 欧美一区二区啪啪| 亚洲人成在线观看| 国产精品久久国产精品99gif | 欧美国产成人精品| 一区二区三区视频在线看| 国产精品久久久久久久久免费桃花| 亚洲欧美国产高清va在线播| 麻豆视频一区二区| 在线亚洲欧美视频| 国产一区二区三区奇米久涩| 久久夜色精品国产噜噜av| 亚洲三级电影全部在线观看高清| 洋洋av久久久久久久一区| 久久精品二区| 亚洲视频观看| 国产日韩在线视频| 欧美aa国产视频| 亚洲资源av| 亚洲成人资源网| 欧美一区二区高清在线观看| 亚洲一区二区三区精品动漫| 亚洲美女淫视频| 在线精品视频一区二区三四| 欧美成人亚洲成人| 亚洲永久免费精品| 欧美国产亚洲另类动漫| 欧美亚洲免费电影| 日韩亚洲成人av在线| 国内精品久久久久影院薰衣草 | 狠狠干综合网| 欧美好吊妞视频| 久久精品五月婷婷| 亚洲一区二区在线视频| 亚洲激情视频在线播放| 久久影音先锋| 欧美一区二区三区四区视频 | 欧美www在线| 久久精品成人一区二区三区蜜臀 | 老司机67194精品线观看| 一区二区三区日韩精品视频| 亚洲黑丝在线| 精品不卡在线| 国内精品美女av在线播放| 国产精品久久久久婷婷| 欧美日本免费| 欧美激情视频在线免费观看 欧美视频免费一 | 先锋影院在线亚洲| 一本久久综合| 99国产精品99久久久久久粉嫩| 亚洲福利视频免费观看| 欧美成人精品三级在线观看| 久久人人精品| 久久久久高清| 久久久午夜视频| 久久久久久夜| 久久一区二区三区国产精品| 久久精品午夜| 久久久久久久久久久一区| 亚洲欧美日韩精品一区二区| 日韩一区二区福利| 一本到12不卡视频在线dvd| 亚洲久久一区二区| 9人人澡人人爽人人精品| 亚洲每日更新| 中文国产成人精品| 亚洲影院在线观看| 欧美一区二区性| 久久亚洲欧美| 欧美激情一区二区三区蜜桃视频| 亚洲第一精品久久忘忧草社区| 欧美黄色网络| 最新亚洲一区| 亚洲午夜在线视频| 久久www成人_看片免费不卡| 久久综合色婷婷| 欧美日韩国产综合网| 国产精品日韩欧美一区二区| 国产一区二区三区在线观看免费视频|