青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 195,  comments - 30,  trackbacks - 0

http://hi.baidu.com/magiccaslte/blog/item/b2d9f09500472c43d1135e93.html


一個偶爾的機會接觸到了MDP,馬爾可夫決策過程,突然發現多年的困惑有點頭緒了,分享一段東西。

以下東西摘自某博士論文部分(若有版權問題請及時告知):

以哲學觀點來看,人類來到世間至少有三件事要做:認識世界;改造世界;享受世界。

在這其中,學習類問題對應認識世界,而決策類問題便是和改造世界緊密相關的。決策問題伴隨著人們的日常生活,大至公司乃至國家的戰略性決定,小至個人利益相關的一些選擇。‘決策’又區別于簡單的‘決定’以及‘選擇’。它通常涉及的是一個過程,其最終對應的行動的執行一般是多步的。在每一步,都要去做一個選擇。不同的選擇,不同的行動,導致不同的結果,進而也意味著不同的收益。決策不能孤立的進行,若不考慮現在與將來的聯系,很難在整個過程中獲得最好的收益,就如同在一次長跑比賽中,我們不能在起點就用盡全力沖刺一樣。事實上,決策問題與人們的社會生活的聯系是如此密切,可以說,一切社會實踐活動都離不開決策,甚至,從辨證的觀點看,若是把主觀世界也當作客觀世界的一部份,那么學習本身也是一個改造世界的過程,其過程也一樣講究策略,我們改造就是自己罷了。

對于智能體而言,當其面對客觀世界中存在的一個待解決的問題時,首先,他的學習能力使其在主觀世界中獲得了對該問題的一個抽象的描述,對應為問題的模型,這其中通常包括:

¨        問題所有可能的狀態,

¨        問題發展過程的演變規律,

¨        智能體在過程中可以做出的選擇,

¨        智能體所期望的結果等。

事實上,這就是MDP模型的基本構成部分,

而所謂的智能體進行決策,也就是指智能體在此模型的基礎上,基于問題過程的規律進行規劃,利用智能體可行的選擇參與改變過程,使其朝自身期望的結果發展,最終解決問題。總的來說,決策基于問題的模型再結合規劃的方法兩部分完成。在人工智能領域,馬爾可夫決策過程是用來建模規劃問題的一個基本理論模型。以其為基礎,進一步發展出一系列更具一般性的決策模型,如部分可觀察馬爾可夫決策過程,分布式馬爾可夫決策過程,部分可觀察的隨機博弈及半馬爾可夫決策過程等等。

決策總是與一個過程相聯系的(當然,從廣義上來看,過程可以只有一步)。智能體要在過程中做出合適的選擇,將過程的發展引入對自身有利的方向,必然需要了解描述過程發展變化的知識。相對于窮舉所有變化,如果某些知識,不止一次可被用來推斷過程發展,即為規律。主體更需要就是這種精簡的知識。

馬爾可夫過程正是具有一類普遍共性的過程。這類共性既是馬爾可夫性,也稱無后效性。由俄羅斯數學家馬爾可夫于1907提出。所謂無后效性,指的是這樣一種性質:某階段的狀態一旦確定,則此后過程的演變不再受此前各狀態的影響。也就是說,未來與過去無關,當前的狀態是此前歷史的一個完整總結,此前的歷史只能通過當前的狀態去影響過程未來的演變。具體地說,如果一個問題被劃分各個階段之后,階段 I 中的狀態只能通過狀態轉移方程去影響階段 I+1 中的狀態的得來,與其他狀態沒有關系,特別是與未發生的狀態沒有關系,這就是無后效性。從更本質的的角度來理論,可以認為馬爾可夫性來源于對因果性和時間的連續性以及單向性的認可。

馬爾可夫性用來描述過程的規律類似數學中使用遞推公式描述數列一樣,并且特點是遞推式只用到了前面一項。做為區別,比如著名的斐波拉契(Fibonacci)數列,11235……的遞推公式F(n)=F(n-1)+F(n-2)就用到了前面的兩項。假設我們構造一個過程,逐次去讀取數列中的每一項,任何一個時刻的狀態便是讀取到的數字。那么,斐波拉契數列對應的便不是一個馬爾可夫過程。描述規律的方式很多,把握“當前的狀態是此前歷史的一個完整總結”這一要點后,很多過程可以被轉化描述為馬爾可夫過程。當然,前提是,可以做到當前狀態完整總結歷史這點。但事實上完美總是相對而言的,從后面不確定性的討論也可以看到。從這個角度來說,馬爾可夫過程是一個很實用的理論。在馬爾可夫過程上做決策的好處顯而易見,我們可以忽略歷史的影響,也無需再去不斷的保存歷史信息,一切規劃都只要從當前狀態出發即可。它所蘊含的思想是將智能體有限的規劃能力引導至更有價值的方向。

馬爾可夫決策過程與馬爾可夫過程的本質區別就是多了主體即決策者的介入。下面將依次簡單介紹馬爾可夫決策過程(Markov Decision Processes, MDP),部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Processes, POMDP)分布式部分馬爾可夫決策過程(Decentralized-POMDP, DEC-POMDP),部分可觀察的隨機博弈(Partially Observable Stochastic Games, POSG)及半馬爾可夫決策過程(Semi-MDP)之間的區別與聯系。

50年代R.貝爾曼研究動態規劃時和L.S.沙普利研究隨機對策時已出現馬爾可夫決策過程的基本思想。R.A.霍華德(1960)D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎。1965年,布萊克韋爾關于一般狀態空間的研究和E.B.丁金關于非時齊(非時間平穩性)的研究,推動了這一理論的發展。1960年以來,馬爾可夫決策過程理論得到迅速發展,應用領域不斷擴大。凡是以馬爾可夫過程作為數學模型的問題,只要能引入決策和效用結構,均可應用這種理論。

在人工智能領域中,對決策類問題的求解過程也可以稱為規劃。經典規劃一般基于確定式的環境模式,如搜索算法A*等。這類方法在現實應用中有很大的局限性。面對現實中的規劃問題,主體對環境特性的把握常常是不完整的,正是由于這種知識的缺失,造成了不確定性。馬爾可夫決策模型則可以處理這類問題。利用下圖信息集合劃分的方式,可以更清晰的理解不確定性,以及馬爾可夫決策過程(MDP)與下面將提到部分可觀察馬爾可夫決策過程(POMDP)的區別。

針對某個決策問題,從信息或者知識的角度我們區分出如下所示3個依次為包含關系的集合:


1.1 決策問題中的信息劃分


A
集合:為客觀存在的影響過程的全部信息,是整個客觀世界的世界狀態中與問題所對應過程相關的因素。

B集合:為影響智能體主觀決策的信息,進一步解釋,是智能體主觀上知道存在,并能夠把握運用的一些信息。因為對于某些因素,即便智能體知道應該與過程相關,但無法把握運用,這些信息也不會影響智能體決策。比如,一般都認為擲硬幣,正反面的概率各50%。事實上,風力,擲硬幣的具體操作方式,拋出軌跡,用力情況,地面情況等都會影響過程結果,而這些因素通常無法把握運用,即使考慮進來,也難以改變決策。因此,這類智能體知道存在卻無法把握利用的信息,及主觀上根本不知道其存在而客觀上卻影響過程的因素,構成了B集合與A集合的差別。同時,也正是這些差別,造成了不確定性的存在。從另一個角度,只要B不是空集,基于應用的需求,就存在進行決策的意義。但對不確定性仍需進行刻畫,于是便引入了統計意義上概率。

C集合:為智能體總是能觀察到的信息。現實中很多決策過程,對于B集合中的信息,智能體有時觀察不到。比如踢足球,自己身后球員的位置是會影響決策的,但卻可能會觀察不到。

根據定義內容,首先有前提A>=B>=C,進而可以對問題做下面的分類:

1>  A=B=C時是一個確定性問題。

2>  A>=B=C時是一個MDP問題。

3>  A>=B>C時是一個POMDP問題。

MDP本身既可以處理確定性問題,也可處理不確定性問題。而POMDPMDP模型上進行了一定擴展,引入了對觀察不確定性的處理。從一定意義上也可以認為,MDPPOMDP的一種極端的情況,即決策相關信息全部可觀察。

MDPPOMDP模型中都認為決策的智能體只有一個,并把其它一切因素都歸于客觀環境。這些因素一部分是確定性的知識;另一部分則是已歸入統計概率的不確定性,認為在當前條件下,從處理問題的實際情況出發,不適合再進行探究,只作概率推理。當一個過程中,有多個智能體同時決策合作來解決一個問題時,上述模型是否適用的關鍵因素即其他智能體的策略是否已知。策略是決策的結果,指出在過程某個狀態要采用哪個行動。如果認為其他智能體策略已知,無論是確定性的策略亦或含概率表示的不確定性策略,那么其他智能體一樣可以歸入環境,仍可使用MDPPOMDP模型處理。否則,其它智能體會采用何種策略也是需要納入考慮的,在生成智能體自身決策的同時,也要生成其他智能體的決策,這是其客觀過程本身的模型決定的。分布式馬爾可夫決策過程(DEC-MDP)及分布式部分可觀察馬爾可夫決策過程(DEC-POMDP)可以處理這類多智能體合作問題。

在現實應用中,多智能體間除了合作也可能存在對抗,這類問題可以歸為博弈。其中本質的區別即智能體間收益評價的不同。合作類問題,各個智能體有相同的收益評價,或者說有共同的目標;而博弈類問題,各個智能體收益評價存在區別,甚至完全對立。部分可觀察的隨機博弈(POSG)便是進一步擴展的一個決策模型,可以處理這類帶有不確定性的博弈問題。

半馬爾可夫過程又可以稱為非時齊馬爾可夫過程,這是相對于一般的時齊馬爾可夫過程而言的。所謂時齊是指過程的每兩個相鄰狀態點間的時間間隔是一致的,對應決策過程則是每步行動的執行時間是定長的。非時齊則是描述了一類更一般的情況,對應決策過程中行動的執行時間并不固定,甚至是時間上的一個概率分布。

我的收獲:早些年研究的東西,基本思路是有一定的科學理論依據的,只是出發點有了問題,所以難逃計算量的恐怖。就像目前的彩票研究者一樣,最終的常理的結論是預知性不明朗,靠運氣吧。現在想想其實換一個研究層面去研究,然后按原來的方法計算,很多層面的東西還是相當有可能的。感謝數學,感謝馬爾可夫。

posted on 2011-04-30 14:46 luis 閱讀(2697) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2011年4月>
272829303112
3456789
10111213141516
17181920212223
24252627282930
1234567

常用鏈接

留言簿(3)

隨筆分類

隨筆檔案

文章分類

文章檔案

友情鏈接

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久精品首页| 91久久久久久久久| 久久人人超碰| 久久亚洲欧美| 久久夜色精品| 欧美福利视频在线| 欧美日韩一级片在线观看| 欧美激情欧美狂野欧美精品| 亚洲图片欧美日产| 欧美精品一区二区三区在线播放| 欧美大片免费观看| 欧美日韩亚洲一区| 国产伦精品一区二区| 国语自产在线不卡| av成人免费观看| 欧美一级久久久| 欧美成人a视频| 99pao成人国产永久免费视频| 亚洲欧美日韩视频二区| 美腿丝袜亚洲色图| 国产精品福利影院| 一区二区三区我不卡| 亚洲作爱视频| 久久婷婷国产综合精品青草| 亚洲免费精彩视频| 久久九九国产| 国产精品成人aaaaa网站| 好吊色欧美一区二区三区视频| 亚洲视频免费看| 欧美1区2区视频| 亚洲专区国产精品| 欧美—级a级欧美特级ar全黄| 国产亚洲亚洲| 亚洲欧美日韩一区二区三区在线观看| 欧美成人精品一区二区三区| 亚洲欧美大片| 欧美午夜电影在线| 亚洲精品一区二区三区四区高清| 欧美中文字幕久久| 日韩视频在线观看| 老司机午夜精品视频| 国产午夜精品福利| 亚洲欧美激情诱惑| 亚洲精品久久久久中文字幕欢迎你| 羞羞色国产精品| 国产精品久久久久久久一区探花 | 激情文学综合丁香| 亚洲视频精选| 亚洲精品欧美日韩专区| 玖玖精品视频| 伊人春色精品| 久久深夜福利| 欧美在线观看一区| 国产人久久人人人人爽| 亚洲中午字幕| 亚洲五月六月| 国产精品看片你懂得| 日韩视频在线观看国产| 亚洲高清不卡| 欧美成人午夜影院| 亚洲日本在线视频观看| 欧美成人在线网站| 免费91麻豆精品国产自产在线观看| 久久久亚洲一区| 亚洲国产精品成人综合| 欧美在线观看一区| 精品51国产黑色丝袜高跟鞋| 久久久精品一区| 久久精品av麻豆的观看方式| 国内精品久久久久久 | 狠狠色丁香婷婷综合影院| 香港久久久电影| 欧美在线亚洲一区| 在线观看免费视频综合| 欧美激情一二区| 欧美人与性动交cc0o| 中文日韩欧美| 午夜精品视频一区| 在线观看欧美视频| 亚洲精品免费一区二区三区| 欧美日韩www| 欧美中文在线观看国产| 久久在线精品| 亚洲一区二区三区免费视频| 亚洲免费视频一区二区| 在线播放豆国产99亚洲| 亚洲精品久久久久中文字幕欢迎你 | 欧美aa国产视频| 欧美日产一区二区三区在线观看| 亚洲欧美日韩精品综合在线观看| 欧美一区2区三区4区公司二百| 黄色精品免费| 日韩小视频在线观看| 国产精品一区二区三区乱码| 麻豆久久精品| 国产精品第13页| 免费人成网站在线观看欧美高清 | 精品不卡一区二区三区| 亚洲电影免费观看高清完整版在线观看 | 日韩视频在线免费| 国产亚洲高清视频| 亚洲人成绝费网站色www| 国产乱码精品一区二区三| 亚洲第一主播视频| 国产日韩精品电影| 亚洲精品你懂的| 国产欧美日韩亚州综合| 亚洲级视频在线观看免费1级| 国产热re99久久6国产精品| 最近中文字幕mv在线一区二区三区四区| 国产精品一区二区三区乱码| 亚洲理论在线观看| 亚洲一区二区三区四区五区午夜 | 久久偷窥视频| 国产精品啊v在线| 亚洲精品美女在线| 亚洲日本黄色| 久久久久欧美精品| 久久精品视频网| 国产精品99免视看9| 欧美激情精品久久久久久免费印度| 国产精品视频九色porn| 亚洲免费av片| 亚洲每日更新| 牛夜精品久久久久久久99黑人| 久久久美女艺术照精彩视频福利播放| 欧美视频在线免费看| 91久久精品日日躁夜夜躁国产| 伊人久久久大香线蕉综合直播 | 欧美一级久久久| 亚洲欧美三级伦理| 国产精品成人v| 一区二区三区国产精华| 99精品国产高清一区二区| 免费在线成人av| 欧美国产精品专区| 亚洲激情图片小说视频| 久久这里只精品最新地址| 免费欧美日韩国产三级电影| 黄色成人在线| 欧美 日韩 国产 一区| 欧美韩日亚洲| 亚洲麻豆视频| 欧美日韩国产bt| 夜夜爽99久久国产综合精品女不卡 | 久久久人成影片一区二区三区观看| 欧美一级理论性理论a| 国产女人aaa级久久久级| 性色av一区二区三区| 久久资源在线| 亚洲精品国产精品国产自| 欧美激情一区二区三区不卡| 亚洲精品久久在线| 亚洲婷婷在线| 国产亚洲欧美激情| 美日韩精品视频| 一区二区三区成人| 久久久久久成人| 亚洲激情视频在线| 国产精品美女视频网站| 午夜久久久久| 欧美xxx成人| 亚洲视频在线看| 国产视频在线观看一区二区| 久久看片网站| 艳妇臀荡乳欲伦亚洲一区| 久久久久久噜噜噜久久久精品| 亚洲国产精品v| 国产精品久久久久久久久搜平片| 久久久久国产精品人| 91久久久一线二线三线品牌| 午夜精品一区二区三区在线| 国产色视频一区| 欧美久久99| 久久久噜噜噜| 麻豆精品一区二区综合av| 宅男噜噜噜66国产日韩在线观看| 欧美三级欧美一级| 一本高清dvd不卡在线观看| 欧美电影免费观看| 欧美激情视频一区二区三区在线播放 | 另类av一区二区| 亚洲激情影院| 国产精品一区二区三区乱码| 久久gogo国模啪啪人体图| 亚洲国产精品va在看黑人| 一区二区三区四区五区精品视频| 国产老肥熟一区二区三区| 欧美精品久久久久久| 欧美伊人久久大香线蕉综合69| 亚洲国产精品久久久久婷婷老年| 久久精品卡一| 亚洲欧美另类综合偷拍| 亚洲经典在线| 一区二区在线视频观看| 国产精品一区二区久久精品| 欧美天天影院| 欧美性猛交xxxx乱大交退制版| 欧美国产日韩在线| 久久久久免费视频|