久久九九全国免费,久久无码AV中文出轨人妻,久久综合狠狠综合久久综合88http://m.shnenglu.com/bneliao/category/8199.htmlzh-cnMon, 09 Mar 2009 16:44:33 GMTMon, 09 Mar 2009 16:44:33 GMT60在數學的海洋中飄蕩zzhttp://m.shnenglu.com/bneliao/articles/75943.htmlbneliaobneliaoSun, 08 Mar 2009 16:00:00 GMThttp://m.shnenglu.com/bneliao/articles/75943.htmlhttp://m.shnenglu.com/bneliao/comments/75943.htmlhttp://m.shnenglu.com/bneliao/articles/75943.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/75943.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/75943.htmlhttp://dahuasky.spaces.live.com/blog/cns!1AB3BC993DB84FD7!305.entry

在過去的一年中,我一直在數學的海洋中游蕩,research進展不多,對于數學世界的閱歷算是有了一些長進。
為什么要深入數學的世界

作為計算機的學生,我沒有任何企圖要成為一個數學家。我學習數學的目的,是要想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的東西看得更深廣一些。說起來,我在剛來這個學校的時候,并沒有預料到我將會有一個深入數學的旅程。我的導師最初希望我去做的題目,是對appearance和motion建立一個unified的model。這個題目在當今Computer Vision中百花齊放的世界中并沒有任何特別的地方。事實上,使用各種Graphical Model把各種東西聯合在一起framework,在近年的論文中并不少見。

我不否認現在廣泛流行的Graphical Model是對復雜現象建模的有力工具,但是,我認為它不是panacea,并不能取代對于所研究的問題的深入的鉆研。如果統計學習包治百病,那么很多“ 下游”的學科也就沒有存在的必要了。事實上,開始的時候,我也是和Vision中很多人一樣,想著去做一個Graphical Model——我的導師指出,這樣的做法只是重復一些標準的流程,并沒有很大的價值。經過很長時間的反復,另外一個路徑慢慢被確立下來——我們相信,一個圖像是通過大量“原子”的某種空間分布構成的,原子群的運動形成了動態的可視過程。微觀意義下的單個原子運動,和宏觀意義下的整體分布的變換存在著深刻的聯系——這需要我們去發掘。

在深入探索這個題目的過程中,遇到了很多很多的問題,如何描述一個一般的運動過程,如何建立一個穩定并且廣泛適用的原子表達,如何刻畫微觀運動和宏觀分布變換的聯系,還有很多。在這個過程中,我發現了兩個事情:

    * 我原有的數學基礎已經遠遠不能適應我對這些問題的深入研究。
    * 在數學中,有很多思想和工具,是非常適合解決這些問題的,只是沒有被很多的應用科學的研究者重視。

于是,我決心開始深入數學這個浩瀚大海,希望在我再次走出來的時候,我已經有了更強大的武器去面對這些問題的挑戰。

我的游歷并沒有結束,我的視野相比于這個博大精深的世界的依舊顯得非常狹窄。在這里,我只是說說,在我的眼中,數學如何一步步從初級向高級發展,更高級別的數學對于具體應用究竟有何好處。

 
集合論:現代數學的共同基礎

現代數學有數不清的分支,但是,它們都有一個共同的基礎——集合論——因為它,數學這個龐大的家族有個共同的語言。集合論中有一些最基本的概念:集合 (set),關系(relation),函數(function),等價(equivalence),是在其它數學分支的語言中幾乎必然存在的。對于這些簡單概念的理解,是進一步學些別的數學的基礎。我相信,理工科大學生對于這些都不會陌生。

不過,有一個很重要的東西就不見得那么家喻戶曉了——那就是“選擇公理”(Axiom of Choice)。這個公理的意思是“任意的一群非空集合,一定可以從每個集合中各拿出一個元素。”——似乎是顯然得不能再顯然的命題。不過,這個貌似平常的公理卻能演繹出一些比較奇怪的結論,比如巴拿赫-塔斯基分球定理——“一個球,能分成五個部分,對它們進行一系列剛性變換(平移旋轉)后,能組合成兩個一樣大小的球”。正因為這些完全有悖常識的結論,導致數學界曾經在相當長時間里對于是否接受它有著激烈爭論。現在,主流數學家對于它應該是基本接受的,因為很多數學分支的重要定理都依賴于它。在我們后面要回說到的學科里面,下面的定理依賴于選擇公理:

   1. 拓撲學:Baire Category Theorem
   2. 實分析(測度理論):Lebesgue 不可測集的存在性
   3. 泛函分析四個主要定理:Hahn-Banach Extension Theorem, Banach-Steinhaus Theorem (Uniform boundedness principle), Open Mapping Theorem, Closed Graph Theorem

在集合論的基礎上,現代數學有兩大家族:分析(Analysis)和代數(Algebra)。至于其它的,比如幾何和概率論,在古典數學時代,它們是和代數并列的,但是它們的現代版本則基本是建立在分析或者代數的基礎上,因此從現代意義說,它們和分析與代數并不是平行的關系。
 
分析:在極限基礎上建立的宏偉大廈
微積分:分析的古典時代——從牛頓到柯西

先說說分析(Analysis)吧,它是從微積分(Caculus)發展起來的——這也是有些微積分教材名字叫“數學分析”的原因。不過,分析的范疇遠不只是這些,我們在大學一年級學習的微積分只能算是對古典分析的入門。分析研究的對象很多,包括導數(derivatives),積分(integral),微分方程(differential equation),還有級數(infinite series)——這些基本的概念,在初等的微積分里面都有介紹。如果說有一個思想貫穿其中,那就是極限——這是整個分析(不僅僅是微積分)的靈魂。

一個很多人都聽說過的故事,就是牛頓(Newton)和萊布尼茨(Leibniz)關于微積分發明權的爭論。事實上,在他們的時代,很多微積分的工具開始運用在科學和工程之中,但是,微積分的基礎并沒有真正建立。那個長時間一直解釋不清楚的“無窮小量”的幽靈,困擾了數學界一百多年的時間——這就是“第二次數學危機”。直到柯西用數列極限的觀點重新建立了微積分的基本概念,這門學科才開始有了一個比較堅實的基礎。直到今天,整個分析的大廈還是建立在極限的基石之上。

柯西(Cauchy)為分析的發展提供了一種嚴密的語言,但是他并沒有解決微積分的全部問題。在19世紀的時候,分析的世界仍然有著一些揮之不去的烏云。而其中最重要的一個沒有解決的是“函數是否可積的問題”。我們在現在的微積分課本中學到的那種通過“無限分割區間,取矩陣面積和的極限”的積分,是大約在1850年由黎曼(Riemann)提出的,叫做黎曼積分。但是,什么函數存在黎曼積分呢(黎曼可積)?數學家們很早就證明了,定義在閉區間內的連續函數是黎曼可積的。可是,這樣的結果并不令人滿意,工程師們需要對分段連續函數的函數積分。
實分析:在實數理論和測度理論上建立起現代分析

在 19世紀中后期,不連續函數的可積性問題一直是分析的重要課題。對于定義在閉區間上的黎曼積分的研究發現,可積性的關鍵在于“不連續的點足夠少”。只有有限處不連續的函數是可積的,可是很多有數學家們構造出很多在無限處不連續的可積函數。顯然,在衡量點集大小的時候,有限和無限并不是一種合適的標準。在探討“點集大小”這個問題的過程中,數學家發現實數軸——這個他們曾經以為已經充分理解的東西——有著許多他們沒有想到的特性。在極限思想的支持下,實數理論在這個時候被建立起來,它的標志是對實數完備性進行刻畫的幾條等價的定理(確界定理,區間套定理,柯西收斂定理,Bolzano- Weierstrass Theorem和Heine-Borel Theorem等等)——這些定理明確表達出實數和有理數的根本區別:完備性(很不嚴格的說,就是對極限運算封閉)。隨著對實數認識的深入,如何測量“點集大小”的問題也取得了突破,勒貝格創造性地把關于集合的代數,和Outer content(就是“外測度”的一個雛形)的概念結合起來,建立了測度理論(Measure Theory),并且進一步建立了以測度為基礎的積分——勒貝格(Lebesgue Integral)。在這個新的積分概念的支持下,可積性問題變得一目了然。

上面說到的實數理論,測度理論和勒貝格積分,構成了我們現在稱為實分析(Real Analysis)的數學分支,有些書也叫實變函數論。對于應用科學來說,實分析似乎沒有古典微積分那么“實用”——很難直接基于它得到什么算法。而且,它要解決的某些“難題”——比如處處不連續的函數,或者處處連續而處處不可微的函數——在工程師的眼中,并不現實。但是,我認為,它并不是一種純數學概念游戲,它的現實意義在于為許多現代的應用數學分支提供堅實的基礎。下面,我僅僅列舉幾條它的用處:

   1. 黎曼可積的函數空間不是完備的,但是勒貝格可積的函數空間是完備的。簡單的說,一個黎曼可積的函數列收斂到的那個函數不一定是黎曼可積的,但是勒貝格可積的函數列必定收斂到一個勒貝格可積的函數。在泛函分析,還有逼近理論中,經常需要討論“函數的極限”,或者“函數的級數”,如果用黎曼積分的概念,這種討論幾乎不可想像。我們有時看一些paper中提到Lp函數空間,就是基于勒貝格積分。
   2. 勒貝格積分是傅立葉變換(這東西在工程中到處都是)的基礎。很多關于信號處理的初等教材,可能繞過了勒貝格積分,直接講點面對實用的東西而不談它的數學基礎,但是,對于深層次的研究問題——特別是希望在理論中能做一些工作——這并不是總能繞過去。
   3. 在下面,我們還會看到,測度理論是現代概率論的基礎。

拓撲學:分析從實數軸推廣到一般空間——現代分析的抽象基礎

隨著實數理論的建立,大家開始把極限和連續推廣到更一般的地方的分析。事實上,很多基于實數的概念和定理并不是實數特有的。很多特性可以抽象出來,推廣到更一般的空間里面。對于實數軸的推廣,促成了點集拓撲學(Point-set Topology)的建立。很多原來只存在于實數中的概念,被提取出來,進行一般性的討論。在拓撲學里面,有4個C構成了它的核心:

   1. Closed set(閉集合)。在現代的拓撲學的公理化體系中,開集和閉集是最基本的概念。一切從此引申。這兩個概念是開區間和閉區間的推廣,它們的根本地位,并不是一開始就被認識到的。經過相當長的時間,人們才認識到:開集的概念是連續性的基礎,而閉集對極限運算封閉——而極限正是分析的根基。
   2. Continuous function (連續函數)。連續函數在微積分里面有個用epsilon-delta語言給出的定義,在拓撲學中它的定義是“開集的原像是開集的函數”。第二個定義和第一個是等價的,只是用更抽象的語言進行了改寫。我個人認為,它的第三個(等價)定義才從根本上揭示連續函數的本質——“連續函數是保持極限運算的函數” ——比如y是數列x1, x2, x3, … 的極限, 那么如果 f 是連續函數,那么 f(y) 就是 f(x1), f(x2), f(x3), …的極限。連續函數的重要性,可以從別的分支學科中進行類比。比如群論中,基礎的運算是“乘法”,對于群,最重要的映射叫“同態映射”——保持“乘法”的映射。在分析中,基礎運算是“極限”,因此連續函數在分析中的地位,和同態映射在代數中的地位是相當的。
   3. Connected set (連通集合)。比它略為窄一點的概念叫(Path connected),就是集合中任意兩點都存在連續路徑相連——可能是一般人理解的概念。一般意義下的連通概念稍微抽象一些。在我看來,連通性有兩個重要的用場:一個是用于證明一般的中值定理(Intermediate Value Theorem),還有就是代數拓撲,拓撲群論和李群論中討論根本群(Fundamental Group)的階。
   4. Compact set(緊集)。Compactness似乎在初等微積分里面沒有專門出現,不過有幾條實數上的定理和它其實是有關系的。比如,“有界數列必然存在收斂子列”——用compactness的語言來說就是——“實數空間中有界閉集是緊的”。它在拓撲學中的一般定義是一個聽上去比較抽象的東西——“緊集的任意開覆蓋存在有限子覆蓋”。這個定義在討論拓撲學的定理時很方便,它在很多時候能幫助實現從無限到有限的轉換。對于分析來說,用得更多的是它的另一種形式 ——“緊集中的數列必存在收斂子列”——它體現了分析中最重要的“極限”。Compactness在現代分析中運用極廣,無法盡述。微積分中的兩個重要定理:極值定理(Extreme Value Theory),和一致收斂定理(Uniform Convergence Theorem)就可以借助它推廣到一般的形式。

從某種意義上說,點集拓撲學可以看成是關于“極限”的一般理論,它抽象于實數理論,它的概念成為幾乎所有現代分析學科的通用語言,也是整個現代分析的根基所在。
微分幾何:流形上的分析——在拓撲空間上引入微分結構

拓撲學把極限的概念推廣到一般的拓撲空間,但這不是故事的結束,而僅僅是開始。在微積分里面,極限之后我們有微分,求導,積分。這些東西也可以推廣到拓撲空間,在拓撲學的基礎上建立起來——這就是微分幾何。從教學上說,微分幾何的教材,有兩種不同的類型,一種是建立在古典微機分的基礎上的“古典微分幾何”,主要是關于二維和三維空間中的一些幾何量的計算,比如曲率。還有一種是建立在現代拓撲學的基礎上,這里姑且稱為“現代微分幾何”——它的核心概念就是“流形”(manifold)——就是在拓撲空間的基礎上加了一套可以進行微分運算的結構。現代微分幾何是一門非常豐富的學科。比如一般流形上的微分的定義就比傳統的微分豐富,我自己就見過三種從不同角度給出的等價定義——這一方面讓事情變得復雜一些,但是另外一個方面它給了同一個概念的不同理解,往往在解決問題時會引出不同的思路。除了推廣微積分的概念以外,還引入了很多新概念:tangent space, cotangent space, push forward, pull back, fibre bundle, flow, immersion, submersion 等等。

近些年,流形在machine learning似乎相當時髦。但是,坦率地說,要弄懂一些基本的流形算法,甚至“創造”一些流形算法,并不需要多少微分幾何的基礎。對我的研究來說,微分幾何最重要的應用就是建立在它之上的另外一個分支:李群和李代數——這是數學中兩大家族分析和代數的一個漂亮的聯姻。分析和代數的另外一處重要的結合則是泛函分析,以及在其基礎上的調和分析。

 
代數:一個抽象的世界
關于抽象代數

回過頭來,再說說另一個大家族——代數。

如果說古典微積分是分析的入門,那么現代代數的入門點則是兩個部分:線性代數(linear algebra)和基礎的抽象代數(abstract algebra)——據說國內一些教材稱之為近世代數。

代數——名稱上研究的似乎是數,在我看來,主要研究的是運算規則。一門代數,其實都是從某種具體的運算體系中抽象出一些基本規則,建立一個公理體系,然后在這基礎上進行研究。一個集合再加上一套運算規則,就構成一個代數結構。在主要的代數結構中,最簡單的是群(Group)——它只有一種符合結合率的可逆運算,通常叫“乘法”。如果,這種運算也符合交換率,那么就叫阿貝爾群(Abelian Group)。如果有兩種運算,一種叫加法,滿足交換率和結合率,一種叫乘法,滿足結合率,它們之間滿足分配率,這種豐富一點的結構叫做環(Ring),如果環上的乘法滿足交換率,就叫可交換環(Commutative Ring)。如果,一個環的加法和乘法具有了所有的良好性質,那么就成為一個域(Field)。基于域,我們可以建立一種新的結構,能進行加法和數乘,就構成了線性代數(Linear algebra)。

代數的好處在于,它只關心運算規則的演繹,而不管參與運算的對象。只要定義恰當,完全可以讓一只貓乘一只狗得到一頭豬:-)。基于抽象運算規則得到的所有定理完全可以運用于上面說的貓狗乘法。當然,在實際運用中,我們還是希望用它干點有意義的事情。學過抽象代數的都知道,基于幾條最簡單的規則,比如結合律,就能導出非常多的重要結論——這些結論可以應用到一切滿足這些簡單規則的地方—— 這是代數的威力所在,我們不再需要為每一個具體領域重新建立這么多的定理。

抽象代數有在一些基礎定理的基礎上,進一步的研究往往分為兩個流派:研究有限的離散代數結構(比如有限群和有限域),這部分內容通常用于數論,編碼,和整數方程這些地方;另外一個流派是研究連續的代數結構,通常和拓撲與分析聯系在一起(比如拓撲群,李群)。我在學習中的focus主要是后者。
線性代數:“線性”的基礎地位

對于做Learning, vision, optimization或者statistics的人來說,接觸最多的莫過于線性代數——這也是我們在大學低年級就開始學習的。線性代數,包括建立在它基礎上的各種學科,最核心的兩個概念是向量空間和線性變換。線性變換在線性代數中的地位,和連續函數在分析中的地位,或者同態映射在群論中的地位是一樣的 ——它是保持基礎運算(加法和數乘)的映射。

在learning中有這樣的一種傾向——鄙視線性算法,標榜非線性。也許在很多場合下面,我們需要非線性來描述復雜的現實世界,但是無論什么時候,線性都是具有根本地位的。沒有線性的基礎,就不可能存在所謂的非線性推廣。我們常用的非線性化的方法包括流形和kernelization,這兩者都需要在某個階段回歸線性。流形需要在每個局部建立和線性空間的映射,通過把許多局部線性空間連接起來形成非線性;而kernerlization則是通過置換內積結構把原線性空間“非線性”地映射到另外一個線性空間,再進行線性空間中所能進行的操作。而在分析領域,線性的運算更是無處不在,微分,積分,傅立葉變換,拉普拉斯變換,還有統計中的均值,通通都是線性的。
泛函分析:從有限維向無限維邁進

在大學中學習的線性代數,它的簡單主要因為它是在有限維空間進行的,因為有限,我們無須借助于太多的分析手段。但是,有限維空間并不能有效地表達我們的世界 ——最重要的,函數構成了線性空間,可是它是無限維的。對函數進行的最重要的運算都在無限維空間進行,比如傅立葉變換和小波分析。這表明了,為了研究函數(或者說連續信號),我們需要打破有限維空間的束縛,走入無限維的函數空間——這里面的第一步,就是泛函分析。

泛函分析 (Functional Analysis)是研究的是一般的線性空間,包括有限維和無限維,但是很多東西在有限維下顯得很trivial,真正的困難往往在無限維的時候出現。在泛函分析中,空間中的元素還是叫向量,但是線性變換通常會叫作“算子”(operator)。除了加法和數乘,這里進一步加入了一些運算,比如加入范數去表達“向量的長度”或者“元素的距離”,這樣的空間叫做“賦范線性空間”(normed space),再進一步的,可以加入內積運算,這樣的空間叫“內積空間”(Inner product space)。

大家發現,當進入無限維的時間時,很多老的觀念不再適用了,一切都需要重新審視。

   1. 所有的有限維空間都是完備的(柯西序列收斂),很多無限維空間卻是不完備的(比如閉區間上的連續函數)。在這里,完備的空間有特殊的名稱:完備的賦范空間叫巴拿赫空間(Banach space),完備的內積空間叫希爾伯特空間(Hilbert space)。
   2. 在有限維空間中空間和它的對偶空間的是完全同構的,而在無限維空間中,它們存在微妙的差別。
   3. 在有限維空間中,所有線性變換(矩陣)都是有界變換,而在無限維,很多算子是無界的(unbounded),最重要的一個例子是給函數求導。
   4. 在有限維空間中,一切有界閉集都是緊的,比如單位球。而在所有的無限維空間中,單位球都不是緊的——也就是說,可以在單位球內撒入無限個點,而不出現一個極限點。
   5. 在有限維空間中,線性變換(矩陣)的譜相當于全部的特征值,在無限維空間中,算子的譜的結構比這個復雜得多,除了特征值組成的點譜(point spectrum),還有approximate point spectrum和residual spectrum。雖然復雜,但是,也更為有趣。由此形成了一個相當豐富的分支——算子譜論(Spectrum theory)。
   6. 在有限維空間中,任何一點對任何一個子空間總存在投影,而在無限維空間中,這就不一定了,具有這種良好特性的子空間有個專門的名稱切比雪夫空間 (Chebyshev space)。這個概念是現代逼近理論的基礎(approximation theory)。函數空間的逼近理論在Learning中應該有著非常重要的作用,但是現在看到的運用現代逼近理論的文章并不多。

繼續往前:巴拿赫代數,調和分析,和李代數

基本的泛函分析繼續往前走,有兩個重要的方向。第一個是巴拿赫代數(Banach Algebra),它就是在巴拿赫空間(完備的內積空間)的基礎上引入乘法(這不同于數乘)。比如矩陣——它除了加法和數乘,還能做乘法——這就構成了一個巴拿赫代數。除此以外,值域完備的有界算子,平方可積函數,都能構成巴拿赫代數。巴拿赫代數是泛函分析的抽象,很多對于有界算子導出的結論,還有算子譜論中的許多定理,它們不僅僅對算子適用,它們其實可以從一般的巴拿赫代數中得到,并且應用在算子以外的地方。巴拿赫代數讓你站在更高的高度看待泛函分析中的結論,但是,我對它在實際問題中能比泛函分析能多帶來什么東西還有待思考。

最能把泛函分析和實際問題在一起的另一個重要方向是調和分析(Harmonic Analysis)。我在這里列舉它的兩個個子領域,傅立葉分析和小波分析,我想這已經能說明它的實際價值。它研究的最核心的問題就是怎么用基函數去逼近和構造一個函數。它研究的是函數空間的問題,不可避免的必須以泛函分析為基礎。除了傅立葉和小波,調和分析還研究一些很有用的函數空間,比如Hardy space,Sobolev space,這些空間有很多很好的性質,在工程中和物理學中都有很重要的應用。對于vision來說,調和分析在信號的表達,圖像的構造,都是非常有用的工具。

當分析和線性代數走在一起,產生了泛函分析和調和分析;當分析和群論走在一起,我們就有了李群(Lie Group)和李代數(Lie Algebra)。它們給連續群上的元素賦予了代數結構。我一直認為這是一門非常漂亮的數學:在一個體系中,拓撲,微分和代數走到了一起。在一定條件下,通過李群和李代數的聯系,它讓幾何變換的結合變成了線性運算,讓子群化為線性子空間,這樣就為Learning中許多重要的模型和算法的引入到對幾何運動的建模創造了必要的條件。因此,我們相信李群和李代數對于vision有著重要意義,只不過學習它的道路可能會很艱辛,在它之前需要學習很多別的數學。

 
現代概率論:在現代分析基礎上再生 

最后,再簡單說說很多Learning的研究者特別關心的數學分支:概率論。自從Kolmogorov在上世紀30年代把測度引入概率論以來,測度理論就成為現代概率論的基礎。在這里,概率定義為測度,隨機變量定義為可測函數,條件隨機變量定義為可測函數在某個函數空間的投影,均值則是可測函數對于概率測度的積分。值得注意的是,很多的現代觀點,開始以泛函分析的思路看待概率論的基礎概念,隨機變量構成了一個向量空間,而帶符號概率測度則構成了它的對偶空間,其中一方施加于對方就形成均值。角度雖然不一樣,不過這兩種方式殊途同歸,形成的基礎是等價的。

在現代概率論的基礎上,許多傳統的分支得到了極大豐富,最有代表性的包括鞅論(Martingale)——由研究賭博引發的理論,現在主要用于金融(這里可以看出賭博和金融的理論聯系,:-P),布朗運動(Brownian Motion)——連續隨機過程的基礎,以及在此基礎上建立的隨機分析(Stochastic Calculus),包括隨機積分(對隨機過程的路徑進行積分,其中比較有代表性的叫伊藤積分(Ito Integral)),和隨機微分方程。對于連續幾何運用建立概率模型以及對分布的變換的研究離不開這些方面的知識。

 

終于寫完了——也謝謝你把這么長的文章看完,希望其中的一些內容對你是有幫助的。


bneliao 2009-03-09 00:00 發表評論
]]>
zz二十世紀的數學 Michael Atiyahhttp://m.shnenglu.com/bneliao/articles/61264.htmlbneliaobneliaoSun, 07 Sep 2008 15:07:00 GMThttp://m.shnenglu.com/bneliao/articles/61264.htmlhttp://m.shnenglu.com/bneliao/comments/61264.htmlhttp://m.shnenglu.com/bneliao/articles/61264.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61264.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61264.html二十世紀的數學 Michael Atiyah

謝謝邀請我來這里參加這個活動.當然,如果有人想談論一個世紀的終結以及下一個世紀的開始,那么他有兩個具有相當難度的選擇:一個是回顧過去百年的數學;另一個是對未來百年數學發展的預測,我選擇了前面這個比較困難的任務,任何人都可以預測未來而且我們并不能判定是對還是錯.然而對過去的任何評述,每個人都可以提出異議.

 我在這里所講的是我個人的觀點.這個報告不可能包含所有內容,特別是,有一些重要的內容我不準備涉及,一部分是因為我不是那些方面的專家,一部分也是出于它們已經在其他地方被評述過了.例如,我不會去談論那些發生在邏輯與計算領域內的著名事件,這些事件往往是與像Hilbert,Godel,Turing 這些偉大的名字相關的,除了數學在基礎物理中的應用之外,我也不會談論太多數學的其他應用,這是因為數學的應用太廣泛了,而且這需要專門的論述.每一個方面都需要一個專門的報告.也許大家在這次會議的其他報告中會聽到很多關于這些內容的演講.另外,試著羅列一些定理,甚至是列出在過去一百年的著名數學家的名字也是毫無意義的,那簡直是在做枯燥的練習.所以,代替它們的是,我試著選擇一些我認為在很多方面都是很重要的主題來討論并且強調圍繞這些主題所發生的事情.

  
  首先我有一個一般性的說明.世紀是一個大約的數字概念.我們不會真地認為在過整整一百年的時候,有些事情會突然停下來,再重新開始,所以當我描述二十世紀的數學時,有些內容實際上可能是跨世紀的,如果某件事件發生在十九世紀九十年代,并持續到二十世紀初,我將不去計較這種時間方面的細節.我所做的就象一個天文學家,工作在一個近似的數字環境中.實際上,許多東西始于十九世紀,只不過在二十世紀才碩果累累.

  

  這個報告的難點之一是很難把我們自己放回到1900年時作為一位數學家的位置上,這是因為上個世紀的數學有非常多的內容已經被我們的文化和我們自己吸收掉了.難以想象人們不用我們的術語來思考的那個時代是什么樣子的.實際上,如果現在有人在數學上有一個真正重要的發現,其后他也一定會與之一起被忽略掉了!他會完全地被融入到背景之中,于是為了能夠回顧過去,我們必須努力去想象在不同時代,人們用不同方式思考問題時的情景.



   從局部到整體

  

  作為開始,我準備列一些主題并且圍繞它們來討論.我談論的第一個主題概括地講,就是被大家稱為從局部到整體的轉變.在古典時期,人們大體上已經研究了在小范圍內,使用局部坐標等等來研究事物.在這個世紀,重點已經轉移到試圖了解事物整體和大范圍的性質.由于整體性質更加難以研究,所以大多只能有定性的結果,這時拓撲的思想就變得非常重要了.正是Poincaré,他不僅為拓撲學發展作出先驅性的貢獻,而且也預言拓撲學將成為二十世紀數學的一個重要的組成部分,順便讓我提一下,給出一系列著名問題的Hilbert并沒有意識到這一點.拓撲學很難在他的那些問題中找到具體體現.但是對Poincaré而言,他相當清楚地看出拓撲學將成為一個重要的內容.

  

  讓我試著列一些領域,然后大家就能知道我在想什么了.例如,考慮一下復分析(也被稱為“函數論”),這在十九世紀是數學的中心,也是象 Weierstrass這樣偉大人物工作的中心.對于他們而言,一個函數就是一個復變量的函數;對于Weierstrass而言,一個函數就是一個冪級數.它們是一些可以用于寫下來,并且可以明確描繪的東西或者是一些公式.函數是一些公式:它們是明確可以用顯式寫下來的.然而接下來 Abe1,Riemann和其后許多人的工作使我們遠離了這些,以至于函數變得可以不用明確的公式來定義,而更多地是通過它們的整體性質來定義:通過它們的奇異點的分布,通過它們的定義域位置,通過它們取值范圍.這些整體性質正是一個特定函數與眾不同的特性.局部展開只是看待它們的一種方式.

  

  一個類似的事情發生在微分方程中,最初,解一個微分方程,人們需要尋找一個明確的局部解!是一些可以寫下來的東西.隨著事物的發展,解不必是一個顯函數,人們不一定必須用好的公式來描述它們.解的奇異性是真正決定其整體性質的東西.與發生在復分析中的一切相比,這種精神是多么的類似,只不過在細節上有些不同罷了.

  

  在微分幾何中,Gauss和其他人的經典工作描述了小片的空間,小塊的曲率以及用來描述局部幾何的局部方程.只要人們想要了解曲面的整體圖象以及伴隨它們的拓撲時,從這些經典結果到大范圍的轉變就是很自然的了.當人們從小范圍到大范圍時,最有意義的性質就是拓撲的性質.

  

  數論也有一個類似的發展,盡管它并不是很明顯地適用于這一框架.數論學家們是這樣來區分他們稱之為“局部理論”和“整體理論”的:前者是當他們討論一個單個的素數,一次一個素數,以及有限個素數時;后者是當他們同時討論全部素數時.這種素數和點之間,局部和整體之間的類似性在數論發展過程中起了很重要的作用,并且那些在拓撲學發展中產生的思想深深地影響了數論.

  

  當然這種情況也發生在物理學中,經典物理涉及局部理論,這時我們寫下可以完全描述小范圍性質的微分方程,接下來我們就必須研究一個物理系統的大范圍性質.物理學涉及的全部內容就是當我們從小范圍出發時,我們可以知道在大范圍內正在發生什么,可以預計將要發生什么,并且沿著這些結論前進.

  


   維數的增加

  

  我的第二個主題有些不同,我稱之為維數的增加.我們再次從經典的復變函數理論開始:經典復變函數論主要是詳細討論一個復變量理論并加以精煉.推廣到兩個或者更多個變量基本上發生在本世紀,并且是發生在有新現象出現的領域內.不是所有的現象都與一個變量的情形相同,這里有完全新的特性出現,并且n個變量的理論的研究越來越占有統治地位,這也是本世紀主要成就之一.

  

  另一方面,過去的微分幾何學家主要研究曲線和曲面,我們現在研究n維流形的幾何,大家仔細想一想,就能意識到這是一個重要的轉變.在早期,曲線和曲面是那些人們能真正在空間里看到的東西.而高維則有一點點虛構的成分,在其中人們可以通過數學思維來想象,但當時人們也許沒有認真對待它們.認真對待它們并且用同樣重視程度來研究它們的這種思想實際上是二十世紀的產物.同樣地,也沒有明顯的證據表明我們十九世紀的先驅者們思考過函數個數的增加,研究不單單一個而是幾個函數,或者是向量值函數(vector-valued function).所以我們看到這里有一個獨立和非獨立變量個數增加的問題.

  

  線性代數總是涉及多個變量,但它的維數的增加更具有戲劇性,它的增加是從有限維到無窮維,從線性空間到有無窮個變量的Hilbert空間.當然這就涉及到了分析,在多個變量的函數之后,我們就有函數的函數,即泛函.它們是函數空間上的函數.它們本質上有無窮多個變量,這就是我們稱為變分學的理論.一個類似的事情發生在一般(非線性)函數理論的發展中.這是一個古老的課題,但真正取得卓越的成果是在二十世紀.這就是我談的第二個主題.

  

  

   從交換到非交換

  

  第三個主題是從交換到非交換的轉變.這可能是二十世紀數學,特別是代數學的最主要的特征之一.代數的非交換方面已經極其重要,當然,它源自于十九世紀.它有幾個不同的起源.Hamilton在四元數方面的工作可能是最令人驚嘆的,并且有巨大的影響,實際上這是受處理物理問題時所采用的思想所啟發.還有 Grassmann在外代數方面的工作,這是另一個代數體系,現在已經被融入我們的微分形式理論中.當然,還有Cayley以線性代數為基礎的矩陣方面的工作和Galois在群論方面的工作等.

  

  所有這些都是以不同的方式形成了把非交換乘法引入代數理論的基石,我形象地把它們說成是二十世紀代數機器賴以生存的“面包和黃油”.我們現在可以不去思考這些,但在十九世紀,以上所有例子都以各自不同的方式取得了重大的突破,當然,這些思想在不同的領域內得到了驚人的發展.矩陣和非交換乘法在物理中的應用產生了量子理論.Heisenberg對易關系是非交換代數在物理中的一個最重要的應用例子,以至后來被von Neumann推廣到他的算子代數理論中.

  

   群論也是在二十世紀占重要位量的理論,我稍后再回來談它.

  


  

   從線性到非線性

  

   我的下一個主題是從線性到非線性的轉變.古典數學的大部分或者基本上是線性的,或者即使不是很精確的線性,也是那種可以通過某些擾動展開來研究的近似線性,真正的非線性現象的處理是非常困難的,并且只是在本世紀,才在很大的范圍內對其進行了真正的研究.

  

  我們從幾何開始談起:Euclid幾何,平面的幾何,空間的幾何,直線的幾何,所有這一切都是線性的.而從非歐幾何的各個不同階段到Riemann的更一般的幾何,所討論的基本上是非線性的.在微分方程中,真正關于非線性現象的研究已經處理了眾多我們通過經典方法所看不到的新現象.在這里我只舉兩個例子,孤立子和混沌,這是微分方程理論兩個非常不同的方面,在本世紀已經成為極度重要和非常著名的研究課題了.它們代表不同的極端.孤立子代表非線性微分方程的無法預料的有組織的行為,而混沌代表的是無法預料的無組織的行為(disorganized behavior).這兩者出現在不同領域,都是非常有趣和重要的,但它們基本土都是非線性現象.我們同樣可以將關于孤立子的某些工作的早期歷史追溯到十九世紀下葉,但那只是很少的一部分.

  

  當然,在物理學,Maxwell方程(電磁學的基本方程)是線性偏微分方程.與之對應的是著名的Yang-Mills方程,它們是非線性方程并被假定用來調控與物質結構有關的力.這些方程之所以是非線性的,是因為Yang-Mills方程本質上是Maxwell方程的矩陣體現,并且由矩陣不可交換這一事實導致方程中出現非線性項.于是在這里我們看到了一個非線性性與非交換性之間的有趣的聯系.非交換性產生一特殊的非線性性,這的確是很有意思和很重要的.

  

  

  

   幾何與代數

  至此我談的是一些一般性的主題,現在我想談論一下數學中的一個二分叉現象,它來回搖擺卻始終伴隨著我們,這就給了我一個機會來做一些哲學上的思索和說明.我指的是幾何和代數之間的二分法,幾何和代數是數學的兩個形式支柱,并且都有悠久的歷史.幾何學可以追溯到古希臘甚至更早的時期;代數學則源于古阿拉伯人和古印度人.所以,它們都已經成為數學的基礎,但它們之間有一種令人感到不太自然的關系.

  

  讓我首先由這個問題的歷史開始.Euc1id幾何是數學理論中最早的一個例子,直到Descartes在我們現在稱為的笛卡兒平面中引入代數坐標之前,它一直是純幾何的.Descartes的做法是一種將幾何思考化為代數運算的嘗試.從代數學家們的角度來講,這當然是對幾何學的一個重大突破或者說一次重大的沖擊,如果我們來比較Newton和Leibniz在分析方面的工作,我們會發現他們屬于不同的傳統,Newton基本上是一個幾何學家而 Le1bniz基本土是一個代數學家,這其中有著很深刻的道理.對于Newton而言,幾何學,或者是由他發展起來的微積分學,都是用來描述自然規律的數學嘗試.他關心的是在很廣泛意義下的物理,以及幾何世界中的物理.在他看來,如果有人想了解事物,他就得用物理世界的觀點來思考它,用幾何圖象的觀點來看待它.當他發展微積分的時候,他想要發展的是微積分的一種能盡可能貼近隱藏在其后的物理內蘊的表現形式.所以他用的是幾何論證,因為這樣可以與實際意義保持密切關系,另一方面,Leibniz有一個目標,一個雄心勃勃的目標,那就是形式化整個數學,將之變成一個龐大的代數機器.這與Newton的途徑截然不同,并且二者有很多不同的記號.正如我們所知道的,在Newton和Leibniz之間的這場大爭論中,Leibniz的記號最后得勝.我們現在還沿用他的記號來寫偏導數.Newton的精神尚在,但被人們埋葬了很長時間.

  

  在十九世紀末期,也就是一百年前,Poincaré和Hilbert是兩個主要人物.我在前面已經提到過他們了,并且可以粗略地講,他們分別是 Newton和Leibniz的傳人.Poincaré的思想更多的是幾何和拓撲的精神,他用這些思想作為他的基本洞察工具.Hilbert更多的是一個形式主義者,他要的是公理化,形式化,并且要給出嚴格的,形式的描述.雖然任何一個偉大的數學家都不能輕易地被歸到哪一類中去,但是,很清楚地,他們屬于不同的傳統.

  

  當準備這個報告的時候,我想我應該寫下我們目前這一代中能夠繼承這些傳統的具有代表性的人的名字.談論還健在的人是十分困難的——誰該放在這張名單上呢?接著我又暗自思忖:有誰會介意被放在這么一張著名的名單的哪一邊呢?于是我選擇了兩個名字Arnold Bourbaki,前者是Poincaré- Newton傳統的繼承人,而后者,我認為,是Hilbert最著名的接班人.Arnold毫不含糊地認為:他的力學和物理的觀點基本上是幾何的,是源自于Newton的;以為存在處于二者之間的東西,除了象Riemann(他確實跟兩者都有偏離)等少數人之外,都是一種誤解.Bourbaki努力繼續 Hilbert的形式化的研究,將數學公理化和形式化推向了一個令人矚目的范圍并取得了一些成功.每一種觀點都有它的優點,但是它們之間很難調和.

  

  讓我來解釋一下我自己是如何看待幾何和代數之間的不同.幾何學當然講的是空間,這是毫無疑問的.如果我面對這間房間里的聽眾,我可以在一秒中內或者是一微秒內看到很多,接收到大量的信息,當然這不是一件偶然的事件.我們大腦的構造與視覺有著極其重要的關系.我從一些從事神經生理學的朋友那里了解到,視覺占用了大腦皮層的百分之八十或九十.在大腦中大約有十七個中樞,每一個中樞專門用來負責視覺活動的不同部分:有些部分涉及的是垂直方向的,有些部分與水平方向有關,有些部分是關于色彩和透視的,最后有些部分涉及的是所見事物的具體含義和解說.理解并感知我們所看到的這個世界是我們人類發展進化的一個非常重要的部分.因此空間直覺(spatial intuition)或者空間知覺(spatial perception)是一種非常強有力的工具,也是幾何學在數學上占有如此重要位置的原因,它不僅僅對那些明顯具有幾何性質的事物可以使用,甚至對那些沒有明顯幾何性質的事物也可以使用.我們努力將它們歸結為幾何形式,因為這樣可以讓我們使用我們的直覺.我們的直覺是我們最有力的武器.特別是在向學生或是同事講解一種數學時可以看得很清楚.當你講解一個很長而且很有難度的論證,最后使學生明白了.學生這時會說些什么呢?他會說“我看到了(我懂了)!”在這里看見與理解是同義詞,而且我們還可以用“知覺”這個詞來同時形容它們,至少這在英語里是對的,把這個現象與其他語言作對比同樣有趣.我認為有一點是很基本的:人類通過這種巨大的能力和視覺的瞬間活動獲取大量的信息,從而得以發展,而教學參與其中并使之完善.

  

  在另一方面(也許有些人不這樣認為),代數本質上涉及的是時間.無論現在做的是哪一類代數,都是一連串的運算被一個接著一個羅列出來,這里“一個接著一個 ”的意思是我們必須有時間的概念.在一個靜態的宇宙中,我們無法想象代數,但幾何的本質是靜態的:我可以坐在這里觀察,沒有什么變化,但我仍可以繼續觀察.然而,代數與時間有關,這是因為我們有一連串的運算,這里當我談到“代數”時,我并不單單指現代代數.任何算法,任何計算過程,都是一個接著一個地給出一連串步驟,現代計算機的發展使這一切看得很清楚.現代計算機用一系列0和1來反映其信息并由此給出問題的答案.

  

   代數涉及的是時間的操作,而幾何涉及的是空間.它們是世界互相垂直的兩個方面,并且它們代表數學中兩種不同的觀念.因此在過去數學家們之間關于代數和幾何相對重要性的爭論或者對話代表了某些非常非常基本的事情.

  

  當然只是為了論證是哪一邊輸了,哪一邊勝利了,這并不值得.當我考慮這個問題時,有一個形象的類比:“你愿意成為一個代數學家還是一個幾何學家?”這個問題就象問:“你愿意是聾子還是瞎子?”一樣.如果人的眼睛盲了,就看不見空間;如果人的耳朵聾了,就無法聽見,聽覺是發生在時間之中的,總的來說,我們還是寧愿二者都要.

  

  在物理學,也有一個類似的、大致平行的關于物理概念和物理實驗之間的劃分.物理學有兩個部分:理論——概念,想法,單詞,定律——和實驗儀器.我認為概念在某種廣義的意義下是幾何的,這是因為它們涉及的是發生在真實世界的事物.另一方面,實驗更象一個代數計算.人們做事情總要花時間,測定一些數,將它們代入到公式中去.但是在實驗背后的基本概念卻是幾何傳統的一部分.

  

  將上述二分叉現象用更哲學或者更文學的語言來說,那就是對幾何學家而言,代數就是所謂的“浮士德的奉獻”.正如大家所知道的,在歌德的故事里,浮士德通過魔鬼可以得到他所想要的(就是一個漂亮女人的愛),其代價是出賣他的靈魂,代數就是由魔鬼提供給數學家的供品.魔鬼會說:“我將給你這個有力的機器,它可以回答你的任何問題.你需要做的就是把你的靈魂給我:放棄幾何,你就會擁有這個威力無窮的機器”(現在可以把它想象成為一臺計算機!).當然我們希望同時擁有它們,我們也許可以欺騙魔鬼,假裝我們出賣靈魂,但不真地給它.不過對我們靈魂的威脅依然存在,這是因為當我們轉入代數計算時,本質上我們會停止思考,停止用幾何的觀念來考慮問題,不再思考其含義.

  

  在這里我談論代數學家的話重了一些,但是基本土,代數的目標總是想建立一個公式,把它放到一個機器中去,轉動一下把手就可以得到答案.也就是拿來一個有意義的東西,把它化成一個公式,然后得到答案.在這樣的一個過程中,人們不再需要思考代數的這些不同階段對應的幾何是什么.就這樣,洞察力丟掉了,而這在那些不同的階段都是非常重要的.我們絕不能放棄這些洞察力!最終我們還是要回到這上面來的,這就是我所談到的浮士德的奉獻.我肯定這種講法尖銳了一點.

  

   幾何和代數的這種選擇導致能融合二者的一些交叉課題的產生,并且代數和幾何之間的區別也不象我講的那樣直截了當和樸實無華.例如,代數學家們經常使用圖式(diagram).而除了幾何直覺,圖式又能是什么呢?

  

  

  

   通用的技術

  

   現在我不想再談論太多就內容來劃分的主題,而想談談那些依照已經使用的技術和常見方法所確定的主題,也就是我想描述一些已經廣泛應用于眾多領域的常見方法.第一個就是:

  

   同調論

  

  歷史上同調論是作為拓撲學的一個分支而發展起來的.它涉及到以下情形.現有一個復雜的拓撲空間,我們想從中得到它的一些簡單信息如計算它的洞或者類似事物的個數,得到某些與之聯系的可加的線性不變量等.這是一種在非線性條件下關干線性不變量的構造.從幾何的角度來看,閉鏈可加可減,這樣就得到了所謂的一個空間的同調群.同調論,作為一種從拓撲空間獲取某些信息的基本代數工具,是在本世紀上半葉發現的.這是一種從幾何中獲益匪淺的代數.

  

  同調概念也出現在其他一些方面.其另一個源頭可以追溯到Hilbert及其關于多項式的研究中,多項式是非線性的函數,它們相乘可以得到更高次數的多項式.正是Hilbert那偉大的洞察力促使他來討論“理想”,具有公共零點的多項式的線性組合.他要尋找這些理想的生成元.生成元可能有很多.他審視它們之間的關系以及關系之間的關系.于是他得到這些關系的一個分層譜系,這就是所謂的“Hilbert合系”.Hilbert的這個理論是一種非常復雜的方法,他試圖將一個非線性的情形(多項式的研究)化為線性情形.本質上來講,Hilbert構造了一個線性關系的復雜體系.能夠把象多項式這樣的非線性事物的某些信息納入其中.

  

  這個代數理論實際上是與上述拓撲理論平行的,而且現在它們已融合在一起構成了所謂的“同調代數”.在代數幾何學中,本世紀五十年代最偉大的成就之一是層的上同調理論的發展及在解析幾何學中的擴展,這是由Leray,Cartan,Serre和Grothendieck等人組成的法國學派取得的.從中我們可以感受到一種既有Riemann-Poincaré的拓撲思想,又有Hilbert的代數思想,再加上某些分析手段的融合,

  

  這表明同調論在代數的其它分支也有著廣泛的應用.我們可以引入同調群的概念,它通常是與非線性事物相關的線性事物.我們可以將之應用于群論,例如,有限群,以及李代數:它們都有相應的同調群.在數論方面,同調群通過Galois群產生了非常重要的應用.因此在相當廣泛的情形下同調論都是強有力的工具之一,它也是二十世紀數學的一個典型的特征.

  

   K-理論

  

  我要談的另外一個技術就是所謂的“K-理論”.它在很多方面都與同調論相似,它的歷史并不很長(直到二十世紀中葉才出現,盡管其起源的某些方面也許可以追溯到更早一些),但它卻有著很廣泛的應用,已經滲透進了數學的許多部分.K-理論實際上與表示理論緊密相聯,有限群的表示理論,可以講,起源于十九世紀.但是其現代形式——K-理論卻只有一個相對較短的歷史.K-理論可以用下面的方式來理解:它可以被想成是應用矩陣論的一種嘗試.我們知道矩陣的乘法是不可交換的,于是我們想構造矩陣可換的或是線性的不變量.跡,維數和行列式都是矩陣論中可換的不變量,而K-理論即是試圖處理它們的一種系統的方法,它有時也被稱為“穩定線性代數”.其思想就是,如果我們有很多矩陣,那么把兩個不可換的矩陣A和矩陣B放在不同塊的正交位置上,它們就可換了,因為在一個大的空間里,我們可以隨意移動物體.于是在某些近似情況下,這樣做是很有好處的,足以讓我們得到一些信息,這就是作為一個技術的K-理論的基石.這完全類似于同調論,二者都是從復雜的非線性情形獲取線性的信息.

  

   在代數幾何中,K-理論是由Grothendieck首先引入的,并且取得了巨大的成功,這些與我們剛剛談到的層理論密切相關,而且也和他在Riemann-Roch定理方面的工作有緊密聯系.

  

  在拓撲學方面,Hirzebruch和我照搬了這些思想并且將它們應用到一個純粹的拓撲范疇內.從某種意義下來說,如果Grothendieck的工作與 Hilbert在合系方面的工作有關,那么我們的工作更接近于Riemann-Poincaré在同調方面的工作,我們用的是連續函數,而他用的是多項式.K-理論也在橢圓算子的指標理論和線性分析的研究中起了重要作用.

  

   從另外一個不同的角度,Milnor,Quillen和其他人發展了K-理論的代數方面,這在數論的研究中有著潛力巨大的應用.沿著這個方向的發展導致了許多有趣問題的產生.

  

  在泛函分析方面,包括象Kasparov在內的許多人的工作將連續的K-理論推廣到非交換的C*-代數情形.一個空間上的連續函數在函數乘積意義下形成一個交換代數.但是在其他情形下,自然地產生了類似的關于非交換情形的討論,這時,泛函分析也就自然而然地成為了這些問題的溫床.

  

  因此,K-理論是另外一個能夠將相當廣泛的數學的許多不同方面都能用這種比較簡單的公式來處理的領域,盡管在每一個情形下,都有很多特定于該方面且能夠連接其他部分的非常困難的,技巧性很強的問題.K-理論不是一個統一的工具,它更象是一個統一的框架,在不同部分之間具有類比和相似.

  

   這個工作的許多內容已經被Alain Connes推廣到“非交換微分幾何”.

  

  非常有趣的是,也就是在最近,Witten通過他在弦理論方面(基礎物理學的最新思想)的工作發現許多很有趣的方法都與K-理有關,并且K-理論看起來為那些所謂的“守恒量”提供了一個很自然的“家”.雖然在過去同調論被認為是這些理論的自然框架,但是現在看起來K一理論能提供更好的答案.

   李群

  

  另一個不單單是一項技術、而且是具有統一性的概念是李群.現在說起李群,我們基本上就是指正交群,酉群,辛群以及一些例外群,它們在二十世紀數學歷史中起了非常重要的作用.它們同樣起源于十九世紀.SophusLie是一位十九世紀的挪威數學家.正如很多人所講的那樣,他和Fleix Klein,還有其他人一起推動了“連續群理論”的發展.對Klein而言,一開始,這是一種試圖統一處理Euclid幾何和非歐幾何這兩種不同類型幾何的方法.雖然這個課題源于十九世紀,但真正起步卻是在二十世紀,作為一種能夠將許多不同問題歸并于其中來研究的統一性框架,李群理論深深地影響了二十世紀.

  

  我現在來談談Klein思想在幾何方面的重要性.對于Klein而言,幾何就是齊性空間,在那里,物體可以隨意移動而保持形狀不變,因此,它們是由一個相關的對稱群來控制的.Euclid群給出Euclid幾何而雙曲幾何源于另一個李群.于是每一個齊性幾何對應一個不同的李群.但是到了后來,隨著對 Riemann的幾何學工作的進一步發展,人們更關心那些不是齊性的幾何,此時曲率隨著位置的變化而變化,并且空間不再有整體對稱性,然而,李群仍然起著重要的作用,這是因為在切空間中我們有Euclid坐標,以至于李群可以出現在一種無窮小的層面上.于是在切空間中,從無窮小的角度來看,李群又出現了,只不過由于要區分不同位置的不同點,我們需要用某種可以處理不同李群的方式來移動物體.這個理論是被Eile Cartan真正發展起來的,成為現代微分幾何的基石,該理論框架對于Einstein的相對論也起著基本的作用.當然Einstein的理論極大地推動了微分幾何的全面發展.

  

  進入二十世紀,我前面提到的整體性質涉及到了在整體層面上的李群和微分幾何.一個主要的發展是給出所謂的“示性類”的信息,這方面標志性的工作是由 Borel和Hirzebruch給出的,示性類是拓撲不變量并且融合三個關鍵部分:李群,微分幾何和拓撲,當然也包含與群本身有關的代數.

  在更帶分析味的方向上,我們得到了現在被稱為非交換調和分析的理論.這是Fourier理論的推廣,對于后者,Fourier級數或者是Fourier積分本質上對應于圓周和直線的交換李群,當我們用更為復雜的李群代替它們時,我們就可以得到一個非常漂亮、非常精巧且將李群表示理論和分析融為一體的理論.這本質上是Harish-Chandra一生的工作.

  

  在數論方面,整個“Lang1ands綱領”,現在許多人都這樣稱呼它,緊密聯系于Harish-Chandra理論,產生于李群理論之中.對于每一個李群,我們都可以給出相應的數論和在某種程度實施Langlands綱領.在本世紀后半葉,代數數論的一大批工作深受其影響.模形式的研究就是其中一個很好的例證,這還包括Andrew Wiles在Fermat大定理方面的工作.

  

  也許有人認為李群只不過在幾何范疇內特別重要而已,因為這是出于連續變量的需要.然而事實并非如此,有限域上的李群的類似討論可以給出有限群,并且大多數有限群都是通過這種方式產生的.因此李群理論的一些技巧甚至可以被應用到有限域或者是局部域等一些離散情形中.這方面有許多純代數的工作,例如與 George Lusztig名字聯系在一起的工作.在這些工作中,有限群的表示理論被加以討論,并且我已經提到的許多技術在這里也可以找到它們的用武之地.

  

   有限群

  

  上述討論已把我們帶到有限群的話題,這也提醒了我:有限單群的分類是我必須承認的一項工作.許多年以前,也就是在有限單群分類恰要完成之時,我接受了一次采訪,并且我還被問道我對有限單群分類的看法,我當時很輕率地說我并不認為它有那么重要.我的理由是有限單群分類的結果告訴我們,大多數單群都是我們已知的,還有就是一張有關若干例外情形的表.在某種意義下,這只不過是結束了一個領域.而并沒有開創什么新東西,當事物用結束代替開始時,我不會感到很興奮.但是我的許多在這一領域工作的朋友聽到我這么講,理所當然地會感到非常非常不高興,我從那時起就不得不穿起“防彈衣”了.

  

  在這項研究中,有一個可以彌補缺點的優點.我在這里實際上指的是在所有的所謂“散在群”(sporadic groups)中,最大的被賦予了“魔群”名字的那一個.我認為魔群的發現這件事本身就是有限單群分類中最叫人興奮的結果了.可以看出魔群是一個極其有意思的動物而且現在還處于被了解之中.它與數學的許多分支的很大一部分有著意想不到的聯系,如與橢圓模函數的聯系,甚至與理論物理和量子場論都有聯系.這是分類工作的一個有趣的副產品.正如我所說的,有限單群分類本身關上了大門,但是魔群又開啟了一扇大門.


  

  

   物理的影響

  

  現在讓我把話題轉到一個不同的主題,即談談物理的影響.在整個歷史中,物理與數學有著非常悠久的聯系,并且大部分數學,例如微積分,就是為了解決物理中出現的問題而發展起來的.在二十世紀中葉,隨著大多數純數學在獨立于物理學時仍取得了很好的發展,這種影響或聯系也許變得不太明顯.但是在本世紀最后四分之一的時間里,事情發生了戲劇性的變化,讓我試著簡單地評述一下物理學和數學,尤其是和幾何的相互影響.

  

  在十九世紀,Hamilton發展了經典力學,引入了現在稱為Hamilton量的形式化.經典力學導出現在所謂的“辛幾何”.這是幾何的一個分支,雖然很早已經有人研究了,但是實際上直到最近二十年,這個課題才得到真正的研究.這已經是幾何學非常豐富的一部分.幾何學,我在這里使用這個詞的意思是指,它有三個分支:Riemann幾何,復幾何和辛幾何,并且分別對應三個不同類型的李群.辛幾何是它們之中最新發展起來的,并且在某種意義下也許是最有趣的,當然也是與物理有極其緊密聯系的一個,這主要因為它的歷史起源與Hamilton力學有關以及近些年來它與量子力學的聯系.現在,我前面提到過的、作為電磁學基本線性方程的Maxwell方程,是Hodge在調和形式方面工作和在代數幾何中應用方面工作的源動力.這是一個非常富有成果的理論,并且自從本世紀三十年代以來已經成為幾何學中的許多工作的基礎.

  

   我已經提到過廣義相對論和Einstein的工作.量子力學當然更是提供了一個重要的實例.這不僅僅體現在對易關系上,而且更顯著地體現在對Hilbert空間和譜理論的強調上.

  

  以一種更具體和明顯的方式,結晶學的古典形式是與晶體結構的對稱性有關的.第一個被研究的實例是發生在點周圍的有限對稱群,這是鑒于它們在結晶學中的應用.在本世紀中,群論更深刻的應用已經轉向與物理的關系,被假設用來構成物質的基本粒子看起來在最小的層面上有隱藏的對稱性,在這個層面上,有某些李群在此出沒,對此我們看不見,但是當我們研究粒子的實際行為時,它們的對稱性就顯現無遺了.所以我們假定了一個模型,在這個模型當中,對稱性是一個本質性的要素,而且目前那些很普遍的不同理論都有一些象SU(2)和SU(3)那樣的基本李群融入其中并構成基礎的對稱群,因此這些李群看起來象是建設物質大廈的磚石.

  

  并不是只有緊李群才出現在物理中,一些非緊李群也出現在物理中,例如Lorentz群.正是由物理學家第一個開始研究非緊李群的表示理論的.它們是那些能夠發生在Hilbert空間的表示,這是因為,對于緊群而言,所有不可約表示都是有限維的,而非緊群需要的是無窮維表示,這也是首先由物理學家意識到的.

  

  在二十世紀的最后25年里,正如我剛剛完成闡述的,有一種巨大的從物理學的新思想到數學的滲透,這也許是整個世紀最引人注目的事件之一,就這個問題本身,也許就需要一個完整的報告,但是,基本上來講,量子場論和弦理論已經以引人注目的方式影響了數學的許多分支,得到了眾多的新結果、新思想和新技術.這里,我的意思是指物理學家通過對物理理論的理解已經能夠預言某些在數學上是對的事情了.當然,這不是一個精確的證明,但是確有非常強有力的直覺、一些特例和類比所支持.數學家們經常來檢驗這些由物理學家預言的結果,并且發現它們基本上是正確的,盡管給出證明是很困難的而且它們中的許多還沒有被完全證明.

  

  所以說沿著這個方向,在過去的25年里取得了巨大的成果.這些結果是極其細致的.這并不象物理學家所講的“這是一種應該是對的東西”.他們說:“這里有明確的公式,還有頭十個實例(涉及超過12位的數字)”.他們會給出關于復雜問題的準確答案,這些決不是那種靠猜測就能得到的,而是需要用機器計算的東西,量子場論提供了一個重要的工具,雖然從數學上來理解很困難,但是站在應用的角度,它有意想不到的回報.這是最近25年中真正令人興奮的事件.

  

   在這里我列一些重要的成果:SimonDona1dson在四維流形方面的工作;Vaughan-Jones在扭結不變量方面的工作;鏡面對稱,量子群;再加上我剛才提到的“魔群”

  

  這個主題到底講的是什么呢?正如我在前面提到過的一樣,二十世紀見證了維數的一種轉換并且以轉換為無窮維而告終,物理學家超越了這些,在量子場論方面,他們真正試圖對廣泛的無窮維空間進行細致的研究,他們處理的無窮維空間是各類典型的函數空間,它們非常復雜,不僅是因為它們是無窮維的,而且它們有復雜的代數、幾何以及拓撲,還有圍繞其中的很大的李群,即無窮維的李群,因此正如二十世紀數學的大部分涉及的是幾何、拓撲、代數以及有限維李群和流形上分析的發展,這部分物理涉及了在無窮維情形下的類似處理.當然,這是一件非常不同的事情,但確有巨大的成功.

  

  讓我更詳盡地解釋一下,量子場論存在于空間和時間中.空間的真正的意義是三維的,但是有簡化的模型使我們將空間取成一維.在一維空間和一維時間里,物理學家遇到的典型事物,用數學語言來講,就是由圓周的微分同胚構成的群或者是由從圓周到一個緊李群的微分映射構成的群.它們是出現在這些維數里的量子場論中的兩個非常基本的無窮維李群的例子,它們也是理所當然的數學事物并且已經被數學家們研究了一段時間.

  

  在這樣一個1+1維理論中,我們將時空取成一個Riemann曲面并且由此可以得到很多新的結果.例如,研究一個給定虧格數的Riemann曲面的模空間是個可以追溯到上個世紀的古典課題.而由量子場論已經得到了很多關于這些模空間的上同調的新結果.另一個非常類似的模空間是一個具有虧格數g的 Riemann曲面上的平坦G-叢的模空間.這些空間都是非常有趣的并且量子場論給出關于它們的一些精確結果.特別地,可以得到一些關于體積的很漂亮的公式,這其中涉及到Zeta函數的取值.

  

   另一個應用與計數曲線(counting curve)有關.如果我們來看給定次數和類型的平面代數曲線,我們想要知道的是,例如,經過那么多點究竟有多少曲線,這樣我們就要面臨代數幾何的計數問題,這些問題在上個世紀一直是很經典的.而且也是非常困難的.現在它們已經通過被稱為“量子上同調”的現代技術解決了,這完全是從量子場論中得到的.或者我們也可以接觸那些關于不在平面上而在彎曲族上的曲線的更加困難的問題,這樣我們得到了另一個具有明確結果的被稱為鏡面對稱的美妙理論,所有這些都產生于 1+1維量子場論.

  

   如果我們升高一個維數,也就是2-維空間和1-維時間,就可以得到Vaughan-Jones的扭結不變量理論.這個理論已經用量子場論的術語給予了很美妙的解釋和分析.

  

  量子場論另一個結果是所謂的“量子群”.現在關于量子群的最好的東西是它們的名字.明確地講它們不是群!如果有人要問我一個量子群的定義,我也許需要用半個小時來解釋,它們是復雜的事物,但毫無疑問它們與量子理論有著很深的聯系它們源于物理,而且現在的應用者是那些腳踏實地的代數學家們,他們實際上用它們進行確定的計算.

  

  如果我們將維數升得更高一些,到一個全四維理論(三加一維),這就是Donaldson的四維流形理論,在這里量子場論產生了重大影響.特別地,這還導致 Seiberg和Witten建立了他們相應的理論,該理論建立在物理直覺之上并且也給出許多非同尋常的數學結果.所有這些都是些突出的例子.其實還有更多的例子.

  

   接下來是弦理論并且這已經是過時的了!我們現在所談論的是M一理論,這是一個內容豐富的理論,其中同樣有大量的數學,從關于它的研究中得到的結果仍有待于進一步消化并且足可以讓數學家們忙上相當長的時間.

  

  

  

   歷史的總結

  

  我現在作一個簡短的總結.讓我概括地談談歷史:數學究竟發生了什么?我相當隨意地把十八世紀和十九世紀放在了一起,把它們當做我們稱為古典數學的時代,這個時代是與Euler和Gauss這樣的人聯系在一起的,所有偉大的古典數學結果也都是在這個時代被發現和發展的.有人也許認為那幾乎就是數學的終結了,但是相反地,二十世紀實際上非常富有成果,這也是我一直在談論的.

  

  二十世紀大致可以一分為二地分成兩部分.我認為二十世紀前半葉是被我稱為“專門化的時代”,這是一個Hilbert的處理辦法大行其道的時代,即努力進行形式化,仔細地定義各種事物,并在每一個領域中貫徹始終.正如我說到過的,Bourbaki的名字是與這種趨勢聯系在一起的.在這種趨勢下,人們把注意力都集中于在特定的時期從特定的代數系統或者其它系統能獲得什么.二十世紀后半葉更多地被我稱為“統一的時代”,在這個時代,各個領域的界限被打破了,各種技術可以從一個領域應用到另外一個領域,并且事物在很大程度上變得越來越有交叉性.我想這是一種過于簡單的說法,但是我認為這簡單總結了我們所看到的二十世紀數學的一些方面.

  

  二十一世紀會是什么呢?我已經說過,二十一世紀是量子數學的時代,或者,如果大家喜歡,可稱為是無窮維數學的時代.這意味著什么呢?量子數學的含義是指我們能夠恰當地理解分析、幾何、拓撲和各式各樣的非線性函數空間的代數,在這里,“恰當地理解”,我是指能夠以某種方式對那些物理學家們已經推斷出來的美妙事物給出較精確的證明.

  

   有人要說,如果用天真幼稚的方式(naive way)來研究無窮維并問一些天真幼稚的問題,通常來講,只能得到錯誤的答案或者答案是無意義的,物理的應用、洞察力和動機使得物理學家能夠問一些關于無窮維的明智的問題,并且可以在有合乎情理的答案時作一些非常細致的工作,因此用這種方式分析無窮維決不是一件輕而易舉的事情.我們必須沿著這條正確的道路走下去.我們已經得到了許多線索,地圖已經攤開了:我們的目標已經有了,只不過還有很長的路要走.

  

  還有什么會發生在二十一世紀?我想強調一下Connes的非交換微分幾何.Alain Connes擁有這個相當宏偉的統一理論.同樣,它融合了一切.它融合了分析、代數、幾何、拓撲、物理、數論,所有這一切都是它的一部分.這是一個框架性理論,它能夠讓我們在非交換分析的范疇里從事微分幾何學家通常所做的工作,這當中包括與拓撲的關系.要求這樣做是有很好的理由的,因為它在數論、幾何、離散群等等以及在物理中都有(潛力巨大的或者特別的)應用.一個與物理有趣的聯系也剛剛被發現.這個理論能夠走多遠,能夠得到什么結果,還有待進一步觀察.它理所當然地是我所期望的至少在下個世紀頭十年能夠得到顯著發展的課題,而且找到它與尚不成熟的(精確)量子場論之間的聯系是完全有可能的.

  

   我們轉到另一個方面,也就是所謂的“算術幾何”或者是Arakelov幾何,其試圖盡可能多地將代數幾何和數論的部分內容統一起來.這是一個非常成功的理論.它已經有了一個美好的開端,但仍有很長的路要走.這又有誰知道呢?

  

   當然,所有這些都有一些共同點.我期待物理學能夠將它的影響遍及所有地方,甚至是數論:Andrew Wiles不同意我這樣說,只有時間會說明一切.

  

  這些是我所能看到的在下個十年里出現的幾個方面,但也有一些難以捉摸的東西:返回至低維幾何.與所有無窮維的富有想象的事物在一起,低維幾何的處境有些尷尬.從很多方面來看,我們開始時討論的維數,或我們祖先開始時的維數,仍留下某些未解之謎.維數為2,3和4的對象被我們稱為“低”維的.例如 Thurston在三維幾何的工作,目標就是能夠給出一個三維流形上的幾何分類,這比二維理論要深刻得多.Thurston綱領還遠遠沒有完成,完成這個綱領當然將是一個重要的挑戰.

  

  在三維中另外一個引人注目的事件是Vaughan-Jones那些思想本質上來源于物理的工作.這給了我們更多的關于三維的信息,并且它們幾乎完全不在 Thurston綱領包含的信息之內.如何將這兩個方面聯系起來仍然是一個巨大的挑戰,但是最近得到的結果暗示兩者之間可能有一座橋,因此,整個低維的領域都與物理有關,但是其中實在有太多讓人琢磨不透的東西.

  

  最后,我要提一下的是在物理學中出現的非常重要的“對偶”.這些對偶,泛泛地來講,產生于一個量子理論被看成一個經典理論時有兩種不同的實現.一個簡單的例子是經典力學中的位置和動量的對偶.這樣由對偶空間代替了原空間,并且在線性理論中,對偶就是Fourier變換.但是在非線性理論中,如何來代替 Fourier變換是巨大的挑戰之一.數學的大部分都與如何在非線性情形下推廣對偶有關.物理學家看起來能夠在他們的弦理論和M一理論中以一種非同尋常的方式做到了這一點.他們構造了一個又一個令人嘆為觀止的對偶實例,在某種廣義的意義下,它們是Fourier變換的無窮維非線性體現,并且看起來它們能解決問題,然而理解這些非線性對偶性看起來也是下個世紀的巨大挑戰之一.

  

   我想我就談到這里.這里還有大量的工作,并且我覺得象我這樣的一個老人可以和你們這么多的年輕人談談是一件非常好的事情;而且我也可以對你們說:在下個世紀,有大量的工作在等著你們去完成.

  

  

  

  (原載《數學譯林》2002/2,白承銘譯,周性偉、馮惠濤校)



bneliao 2008-09-07 23:07 發表評論
]]>
介紹幾本數學書zzhttp://m.shnenglu.com/bneliao/articles/61183.htmlbneliaobneliaoSat, 06 Sep 2008 17:50:00 GMThttp://m.shnenglu.com/bneliao/articles/61183.htmlhttp://m.shnenglu.com/bneliao/comments/61183.htmlhttp://m.shnenglu.com/bneliao/articles/61183.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61183.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61183.html
7月13日

介紹幾本數學書

前面幾篇談了一些對數學的粗淺看法。其實,如果對某門數學有興趣,最好的方法就是走進那個世界去學習和體驗。

這里說說幾本我看過后覺得不錯的數學教科書。

1. 線性代數 (Linear Algebra):

我想國內的大學生都會學過這門課程,但是,未必每一位老師都能貫徹它的精要。這門學科對于Learning是必備的基礎,對它的透徹掌握是必不可少的。我在科大一年級的時候就學習了這門課,后來到了香港后,又重新把線性代數讀了一遍,所讀的是

Introduction to Linear Algebra (3rd Ed.)  by Gilbert Strang.

這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較 透徹。我個人覺得,學習線性代數,最重要的不是去熟練矩陣運算和解方程的方法——這些在實際工作中MATLAB可以代勞,關鍵的是要深入理解幾個基礎而又 重要的概念:子空間(Subspace),正交(Orthogonality),特征值和特征向量(Eigenvalues and eigenvectors),和線性變換(Linear transform)。從我的角度看來,一本線代教科書的質量,就在于它能否給這些根本概念以足夠的重視,能否把它們的聯系講清楚。Strang的這本書 在這方面是做得很好的。

而且,這本書有個得天獨厚的優勢。書的作者長期在MIT講授線性代數課(18.06),課程的video在MIT的Open courseware網站上有提供。有時間的朋友可以一邊看著名師授課的錄像,一邊對照課本學習或者復習。

http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm

2. 概率和統計 (Probability and Statistics):

概率論和統計的入門教科書很多,我目前也沒有特別的推薦。我在這里想介紹的是一本關于多元統計的基礎教科書:

Applied Multivariate Statistical Analysis (5th Ed.)  by Richard A. Johnson and Dean W. Wichern

這本書是我在剛接觸向量統計的時候用于學習的,我在香港時做研究的基礎就是從此打下了。實驗室的一些同學也借用這本書學習向量統計。這本書 沒有特別追求數學上的深度,而是以通俗易懂的方式講述主要的基本概念,讀起來很舒服,內容也很實用。對于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。

之后就可以進一步深入學習貝葉斯統計和Graphical models。一本理想的書是

Introduction to Graphical Models (draft version).  by M. Jordan and C. Bishop.

我不知道這本書是不是已經出版了(不要和Learning in Graphical Models混淆,那是個論文集,不適合初學)。這本書從基本的貝葉斯統計模型出發一直深入到復雜的統計網絡的估計和推斷,深入淺 出,statistical learning的許多重要方面都在此書有清楚論述和詳細講解。MIT內部可以access,至于外面,好像也是有電子版的。

3. 分析 (Analysis):

我想大家基本都在大學就學過微積分或者數學分析,深度和廣度則隨各個學校而異了。這個領域是很多學科的基礎,值得推薦的教科書莫過于

Principles of Mathematical Analysis, by Walter Rudin

有點老,但是絕對經典,深入透徹。缺點就是比較艱深——這是Rudin的書的一貫風格,適合于有一定基礎后回頭去看。

在分析這個方向,接下來就是泛函分析(Functional Analysis)。

Introductory Functional Analysis with Applications, by Erwin Kreyszig.

適合作為泛函的基礎教材,容易切入而不失全面。我特別喜歡它對于譜論和算子理論的特別關注,這對于做learning的研究是特別重要的。 Rudin也有一本關于functional analysis的書,那本書在數學上可能更為深刻,但是不易于上手,所講內容和learning的切合度不如此書。

在分析這個方向,還有一個重要的學科是測度理論(Measure theory),但是我看過的書里面目前還沒有感覺有特別值得介紹的。

4. 拓撲 (Topology):

在我讀過的基本拓撲書各有特色,但是綜合而言,我最推崇:

Topology (2nd Ed.)  by James Munkres

這本書是Munkres教授長期執教MIT拓撲課的心血所凝。對于一般拓撲學(General topology)有全面介紹,而對于代數拓撲(Algebraic topology)也有適度的探討。此書不需要特別的數學知識就可以開始學習,由淺入深,從最基本的集合論概念(很多書不屑講這個)到Nagata- Smirnov Theorem和Tychonoff theorem等較深的定理(很多書避開了這個)都覆蓋了。講述方式思想性很強,對于很多定理,除了給出證明過程和引導你思考其背后的原理脈絡,很多令人 贊嘆的亮點——我常讀得忘卻饑餓,不愿釋手。很多習題很有水平。

5. 流形理論 (Manifold theory):

對于拓撲和分析有一定把握時,方可開始學習流形理論,否則所學只能流于浮淺。我所使用的書是

Introduction to Smooth Manifolds.  by John M. Lee

雖然書名有introduction這個單詞,但是實際上此書涉入很深,除了講授了基本的manifold, tangent space, bundle, sub-manifold等,還探討了諸如綱理論(Category theory),德拉姆上同調(De Rham cohomology)和積分流形等一些比較高級的專題。對于李群和李代數也有相當多的討論。行文通俗而又不失嚴謹,不過對某些記號方式需要熟悉一下。

雖然李群論是建基于平滑流形的概念之上,不過,也可能從矩陣出發直接學習李群和李代數——這種方法對于急需使用李群論解決問題的朋友可能更加實用。而且,對于一個問題從不同角度看待也利于加深理解。下面一本書就是這個方向的典范:

Lie Groups, Lie Algebras, and Representations: An Elementary Introduction.  by Brian C. Hall

此書從開始即從矩陣切入,從代數而非幾何角度引入矩陣李群的概念。并通過定義運算的方式建立exponential mapping,并就此引入李代數。這種方式比起傳統的通過“左不變向量場(Left-invariant vector field)“的方式定義李代數更容易為人所接受,也更容易揭示李代數的意義。最后,也有專門的論述把這種新的定義方式和傳統方式聯系起來。

————————————————————————————

無論是研究Vision, Learning還是其它別的學科,數學終究是根基所在。學好數學是做好研究的基石。學好數學的關鍵歸根結底是自己的努力,但是選擇一本好的書還是大有益 處的。不同的人有不同的知識背景,思維習慣和研究方向,因此書的選擇也因人而異,只求適合自己,不必強求一致。上面的書僅僅是從我個人角度的出發介紹的, 我的閱讀經歷實在非常有限,很可能還有比它們更好的書(不妨也告知我一聲,先說聲謝謝了)。





bneliao 2008-09-07 01:50 發表評論
]]>
拓撲:游走于直觀與抽象之間zzhttp://m.shnenglu.com/bneliao/articles/61181.htmlbneliaobneliaoSat, 06 Sep 2008 16:05:00 GMThttp://m.shnenglu.com/bneliao/articles/61181.htmlhttp://m.shnenglu.com/bneliao/comments/61181.htmlhttp://m.shnenglu.com/bneliao/articles/61181.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61181.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61181.html6月22日

拓撲:游走于直觀與抽象之間

近日來,抽空再讀了一遍點集拓撲(Point Set Topology),這是我第三次重新學習這個理論了。我看電視劇和小說,極少能有興致看第二遍,但是,對于數學,每看一次都有新的啟發和收獲。

代 數,分析,和拓撲,被稱為是現代數學的三大柱石。最初讀拓撲,是在兩三年前,由于學習流形理論的需要。可是,隨著知識的積累,發現它是很多理論的根基。可 以說,沒有拓撲,就沒有現代意義的分析與幾何。我們在各種數學分支中接觸到的最基本的概念,比如,極限,連續,距離(度量),邊界,路徑,在現代數學中, 都源于拓撲。

拓撲學是一門非常奇妙的學科,它把最直觀的現象和最抽象的概念聯系在一起了。拓撲描述的是普遍使用的概念(比如開集,閉 集,連續),我們對這些概念習以為常,理所當然地使用著,可是,真要定義它,則需要對它們本質的最深刻的洞察。數學家們經過長時間的努力,得到了這些概念 的現代定義。這里面很多第一眼看上去,會感覺驚奇——怎么會定義成這個樣子。

首先是開集。在學習初等數學時,我們都學習開區間 (a, b)。可是,這只是在一條線上的,怎么推廣到二維空間,或者更高維空間,或者別的形體上呢?最直觀的想法,就是“一個不包含邊界的集合”。可是,問題來 了,給一個集合,何謂“邊界”?在拓撲學里面,開集(Open Set)是最根本的概念,它是定義在集合運算的基礎上的。它要求開集符合這樣的條件:開集的任意并集和有限交集仍為開集。

我最初的時 候,對于這樣的定義方式,確實百思不解。不過,讀下去,看了和做了很多證明后,發現,這樣的定義一個很重要的意義在于:它保證了開集中每個點都有一個鄰域 包含在這個集合內——所有點都和外界(補集)保持距離。這樣的理解應該比使用集合運算的定義有更明晰的幾何意義。但是,直觀的東西不容易直接形成嚴謹的定 義,使用集合運算則更為嚴格。而集合運算定義中,任意并集的封閉性是對這個幾何特點的內在保證。

另外一個例子就是“連續函數 ”(Continuous Function)。在學微積分時,一個耳熟能詳的定義是“對任意的epsilon > 0,存在delta > 0,使得 。。。。”,背后最直觀的意思就是“足夠近的點保證映射到任意小的范圍內”。可是,epsilon, delta都依賴于實空間,不在實空間的映射又怎么辦呢?拓撲的定義是“如果一個映射的值域中任何開集的原像都是開集,那么它連續。”這里就沒有 epsilon什么事了。

這里的關鍵在于,在拓撲學中,開集的最重要意義就是要傳遞“鄰域”的意思——開集本身就是所含點的鄰域。這樣連續定義成這樣就順理成章了。稍微把說法調節一下,上面的定義就變成了“對于f(x)的任意領域U,都有x的一個鄰域V,使得V里面的點都映射到U中。”

這里面,我們可以感受到為什么開集在拓撲學中有根本性的意義。既然開集傳達“鄰域”的意思,那么,它最重要的作用就是要表達哪些點靠得比較近。給出一個拓撲結構,就是要指出哪些是開集,從而指出哪些點靠得比較近,這樣就形成了一個聚集結構——這就是拓撲。

可是這也可以通過距離來描述,為什么要用開集呢,反而不直觀了。某種意義上說,拓撲是“定性”的,距離度量是“定量”的。隨著連續變形,距離會不斷變化,但是靠近的點還是靠近,因此本身固有的拓撲特性不會改變。拓撲學研究的就是這種本質特性——連續變化中的不變性。

在 拓撲的基本概念中,最令人費解的,莫過于“緊性”(Compactness)。它描述一個空間或者一個集合“緊不緊”。正式的定義是“如果一個集合的任意 開覆蓋都有有限子覆蓋,那么它是緊的”。乍一看,實在有點莫名其妙。它究竟想描述一個什么東西呢?和“緊”這個形容詞又怎么扯上關系呢?

一 個直觀一點的理解,幾個集合是“緊”的,就是說,無限個點撒進去,不可能充分散開。無論鄰域多么小,必然有一些鄰域里面有無限個點。上面關于 compactness的這個定義的玄機就在有限和無限的轉換中。一個緊的集合,被無限多的小鄰域覆蓋著,但是,總能找到其中的有限個就能蓋全。那么,后 果是什么呢?無限個點撒進去,總有一個鄰域包著無數個點。鄰域們再怎么小都是這樣——這就保證了無限序列中存在極限點。

Compact這個概念雖然有點不那么直觀,可是在分析中有著無比重要的作用。因為它關系到極限的存在性——這是數學分析的基礎。了解泛函分析的朋友都知道,序列是否收斂,很多時候就看它了。微積分中,一個重要的定理——有界數列必然包含收斂子列,就是根源于此。

在 學習拓撲,或者其它現代數學理論之前,我們的數學一直都在有限維歐氏空間之中,那是一個完美的世界,具有一切良好的屬性,Hausdorff, Locally compact, Simply connected,Completed,還有一套線性代數結構,還有良好定義的度量,范數,與內積。可是,隨著研究的加深,終究還是要走出這個圈子。這 個時候,本來理所當然的東西,變得不那么必然了。

       兩個點必然能分開?你要證明空間是Hausdorff的。

       有界數列必然存在極限點?這只在locally compact的空間如此。

       一個連續體內任意兩點必然有路徑連接?這可未必。

一 切看上去有悖常理,而又確實存在。從線性代數到一般的群,從有限維到無限維,從度量空間到拓撲空間,整個認識都需要重新清理。而且,這些絕非僅是數學家的 概念游戲,因為我們的世界不是有限維向量能充分表達的。當我們研究一些不是向量能表達的東西的時候,度量,代數,以及分析的概念,都要重新建立,而起點就 在拓撲。





bneliao 2008-09-07 00:05 發表評論
]]>
圖˙譜˙馬爾可夫過程˙聚類結構zzhttp://m.shnenglu.com/bneliao/articles/61180.htmlbneliaobneliaoSat, 06 Sep 2008 15:47:00 GMThttp://m.shnenglu.com/bneliao/articles/61180.htmlhttp://m.shnenglu.com/bneliao/comments/61180.htmlhttp://m.shnenglu.com/bneliao/articles/61180.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61180.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61180.html圖˙譜˙馬爾可夫過程˙聚類結構

題目中所說到的四個詞語,都是Machine Learning以及相關領域中熱門的研究課題。表面看屬于不同的topic,實際上則是看待同一個問題的不同角度。不少文章論述了它們之間的一些聯系,讓大家看到了這個世界的奇妙。

從圖說起

這里面,最簡單的一個概念就是“圖”(Graph),它用于表示事物之間的相互聯系。每個圖有一批節點(Node),每個節點表示一個對 象,通過一些邊(Edge)把這些點連在一起,表示它們之間的關系。就這么一個簡單的概念,它對學術發展的意義可以說是無可估量的。幾乎所有領域研究的東 西,都是存在相互聯系的,通過圖,這些聯系都具有了一個統一,靈活,而又強大的數學抽象。因此,很多領域的學者都對圖有著深入探討,而且某個領域關于圖的 研究成果,可以被其它領域借鑒。

矩陣表示:讓代數進入圖的世界

在數學上,一種被普遍使用的表達就是鄰接矩陣(Adjacency Matrix)。一個有N個節點的圖,可以用一個N x N的矩陣G表示,G(i, j)用一個值表示第i個節點和第j個節點的聯系,通常來說這個值越大它們關系越密切,這個值為0表示它們不存在直接聯系。這個表達,很直接,但是非常重 要,因為它把數學上兩個非常根本的概念聯系在一起:“圖”(Graph)和“矩陣”(Matrix)。矩陣是代數學中最重要的概念,給了圖一個矩陣表達, 就建立了用代數方法研究圖的途徑。數學家們幾十年前開始就看到了這一點,并且開創了數學上一個重要的分支——代數圖論(Algebraic Graph Theory)。

代數圖論通過圖的矩陣表達來研究圖。熟悉線性代數的朋友知道,代數中一個很重要的概念叫做“譜”(Spectrum)。一個矩陣的很多 特性和它的譜結構——就是它的特征值和特征向量是密切相關的。因此,當我們獲得一個圖的矩陣表達之后,就可以通過研究這個矩陣的譜結構來研究圖的特性。通 常,我們會分析一個圖的鄰接矩陣(Adjacency Matrix)或者拉普拉斯矩陣(Laplace Matrix)的譜——這里多說一句,這兩種矩陣的譜結構剛好是對稱的。

譜:“分而治之”的代數

譜,這個詞匯似乎在不少地方出現過,比如我們可能更多聽說的頻譜,光譜,等等。究竟什么叫“譜”呢?它的概念其實并不神秘,簡單地說,譜這 個概念來自“分而治之”的策略。一個復雜的東西不好直接研究,就把它分解成簡單的分量。如果我們把一個東西看成是一些分量疊加而成,那么這些分量以及它們 各自所占的比例,就叫這個東西的譜。所謂頻譜,就是把一個信號分解成多個頻率單一的分量。

矩陣的譜,就是它的特征值和特征向量,普通的線性代數課本會告訴你定義:如果A v = c v,那么c 就是A的特征值,v就叫特征向量。這僅僅是數學家發明的一種數學游戲么?——也許有些人剛學這個的時候,并一定能深入理解這么個公式代表什么。其實,這里 的譜,還是代表了一種分量結構,它為使用“分而治之”策略來研究矩陣的作用打開了一個重要途徑。這里我們可以把矩陣理解為一個操作(operator), 它的作用就是把一個向量變成另外一個向量:y = A x。對于某些向量,矩陣對它的作用很簡單,A v = cv,相當于就把這個向量v 拉長了c倍。我們把這種和矩陣A能如此密切配合的向量v1, v2, ... 叫做特征向量,這個倍數c1, c2, ...叫特征值。那么來了一個新的向量x 的時候,我們就可以把x 分解為這些向量的組合,x = a1 v1 + a2 v2 + ...,那么A對x的作用就可以分解了:A x = A (a1 v1 + a2 v2 + ...) = a1 c1 v1 + a2 c2 v2 ... 所以,矩陣的譜就是用于分解一個矩陣的作用的。

這里再稍微延伸一點。一個向量可以看成一個關于整數的函數,就是輸入i,它返回v( i )。它可以延伸為一個連續函數(一個長度無限不可數的向量,呵呵),相應的矩陣 A 變成一個二元連續函數(面積無限大的矩陣)。這時候矩陣乘法中的求和變成了積分。同樣的,A的作用可以理解為把一個連續函數映射為另外一個連續函數,這時 候A不叫矩陣,通常被稱為算子。對于算子,上面的譜分析方法同樣適用(從有限到無限,在數學上還需要處理一下,不多說了)——這個就是泛函分析中的一個重 要部分——譜論(Spectral Theory)。

馬爾可夫過程——從時間的角度理解圖

回到“圖”這個題目,那么圖的譜是干什么的呢?按照上面的理解,似乎是拿來分解一個圖的。這里譜的作用還是分治,但是,不是直觀的理解為把 圖的大卸八塊,而是把要把在圖上運行的過程分解成簡單的過程的疊加。如果一個圖上每個節點都有一個值,那么在圖上運行的過程就是對這些值進行更新的過程。 一個簡單,大家經常使用的過程,就是馬爾可夫過程(Markov Process)。

學過隨機過程的朋友都了解馬爾可夫過程。概念很簡單——“將來只由現在決定,和過去無關”。考慮一個圖,圖上每個點有一個值,會被不斷 更新。每個點通過一些邊連接到其它一些點上,對于每個點,這些邊的值都是正的,和為1。在圖上每次更新一個點的值,就是對和它相連接的點的值加權平均。如 果圖是聯通并且非周期(數學上叫各態歷經性, ergodicity),那么這個過程最后會收斂到一個唯一穩定的狀態(平衡狀態)。

圖上的馬爾可夫更新過程,對于很多學科有著非常重要的意義。這種數學抽象,可以用在什么地方呢?(1) Google對搜索結果的評估(PageRank)原理上依賴于這個核心過程,(2) 統計中一種廣泛運用的采樣過程MCMC,其核心就是上述的轉移過程,(3) 物理上廣泛存在的擴散過程(比如熱擴散,流體擴散)和上面的過程有很重要的類比,(4) 網絡中的信息的某些歸納與交換過程和上述過程相同 (比如Random Gossiping),還有很多。非常多的實際過程通過某種程度的簡化和近似,都可以歸結為上述過程。因此,對上面這個核心過程的研究,對于很多現象的理 解有重要的意義。各個領域的科學家從本領域的角度出發研究這個過程,得出了很多實質上一致的結論,并且很多都落在了圖的譜結構的這個關鍵點上。

圖和譜在此聯姻

根據上面的定義,我們看到鄰接矩陣A其實就是這個馬爾可夫過程的轉移概率矩陣。我們把各個節點的值放在一起可以得到一個向量v,那么我們就 可以獲得對這個過程的代數表示, v(t+1) = A v(t)。穩定的時候,v = A v。我們可以看到穩定狀態就是A的一個特征向量,特征值就是1。這里譜的概念進來了。我們把A的特征向量都列出來v1, v2, ...,它們有 A vi = ci vi。vi其實就是一種很特殊,但是很簡單的狀態,對它每進行一輪更新,所有節點的值就變成原來的ci倍。如果0 < ci < 1,那么,相當于所有節點的值呈現指數衰減,直到大家都趨近于0。

一般情況下,我們開始于一個任意一個狀態u,它的更新過程就沒那么簡單了。我們用譜的方法來分析,把u分解成 u = v1 + c2 v2 + c3 v3 + ... (在數學上可以嚴格證明,對于上述的轉移概率矩陣,最大的特征值就是1,這里對應于平衡狀態v1,其它的特征狀態v2, v3, ..., 對應于特征值1 > c2 > c3 > ... > -1)。那么,我們可以看到,當更新進行了t 步之后,狀態變成 u(t) = v1 + c2^t v2 + c3^t v3 + ...,我們看到,除了代表平衡狀態的分量保持不變外,其它分量隨著t 增長而指數衰減,最后,其它整個趨近于平衡狀態。

從上面的分析看到,這個過程的收斂速度,其實是和衰減得最慢的那個非平衡分量是密切相關的,它的衰減速度取決于第二大特征值c2,c2 的大小越接近于1,收斂越慢,越接近于0,收斂越快。這里,我們看到了譜的意義。第一,它幫助把一個圖上運行的馬爾可夫過程分解為多個簡單的字過程的疊 加,這里面包含一個平衡過程和多個指數衰減的非平衡過程。第二,它指出平衡狀態是對應于最大特征值1的分量,而收斂速度主要取決于第二大特征值。

我們這里知道了第二大特征值c2對于描述這個過程是個至關重要的量,究竟是越大越好,還是越小越好呢?這要看具體解決的問題。如果你要 設計一個采樣過程或者更新過程,那么就要追求一個小的c2,它一方面提高過程的效率,另外一方面,使得圖的結構改變的時候,能及時收斂,從而保證過程的穩 定。而對于網絡而言,小的c2有利于信息的迅速擴散和傳播。

聚類結構——從空間的角度理解圖

c2的大小往往取決于圖上的聚類結構。如果圖上的點分成幾組,各自聚成一團,缺乏組與組之間的聯系,那么這種結構是很不利于擴散的。在某些 情況下,甚至需要O(exp(N))的時間才能收斂。這也符合我們的直觀想象,好比兩個大水缸,它們中間的只有一根很細的水管相連,那么就需要好長時間才 能達到平衡。有興趣的朋友可以就這個水缸問題推導一下,這個水缸系統的第二大特征值和水管流量與水缸的容積的比例直接相關,隨比例增大而下降。

對于這個現象進行推廣,數學上有一個重要的模型叫導率模型(Conductance)。具體的公式不說了,大體思想是,節點集之間的導 通量和節點集大小的平均比例和第二大特征值之間存在一個單調的上下界關系。導率描述的是圖上的節點連接的空間結合,這個模型把第二特征值c2和圖的空間聚 集結構聯系在一起了。

圖上的聚類結構越明顯, c2越大;反過來說,c2越大,聚類的結構越明顯,(c2 = 1)時,整個圖就斷裂成非連通的兩塊或者多塊了。從這個意義上說,c2越大,越容易對這個圖上的點進行聚類。機器學習中一個重要課題叫做聚類,近十年來, 基于代數圖論發展出來的一種新的聚類方法,就是利用了第二大特征值對應的譜結構,這種聚類方法叫做譜聚類(Spectral Clustering)。它在Computer Vision里面對應于一種著名的圖像分割方法,叫做Normalized Cut。很多工作在使用這種方法。其實這種方法的成功,取決于c2的大小,也就是說取決于我們如何構造出一個利于聚類的圖,另外c2的值本身也可以作為衡 量聚類質量,或者可聚類性的標志。遺憾的是,在paper里面,使用此方法者眾,深入探討此方法的內在特點者少。

歸納起來

圖是表達事物關系和傳遞擴散過程的重要數學抽象

圖的矩陣表達提供了使用代數方法研究圖的途徑

譜,作為一種重要的代數方法,其意義在于對復雜對象和過程進行分解

圖上的馬爾可夫更新過程是很多實際過程的一個重要抽象

圖的譜結構的重要意義在于通過它對馬爾可夫更新過程進行分解分析

圖的第一特征值對應于馬爾可夫過程的平衡狀態,第二特征值刻畫了這個過程的收斂速度(采樣的效率,擴散和傳播速度,網絡的穩定程度)。

圖的第二特征分量與節點的聚類結構密切相關。可以通過譜結構來分析圖的聚類結構。

馬爾可夫過程代表了一種時間結構,聚類結構代表了一種空間結構,“譜”把它們聯系在一起了,在數學刻畫了這種時與空的深刻關系




bneliao 2008-09-06 23:47 發表評論
]]>
How to get a solution?zzhttp://m.shnenglu.com/bneliao/articles/61178.htmlbneliaobneliaoSat, 06 Sep 2008 15:39:00 GMThttp://m.shnenglu.com/bneliao/articles/61178.htmlhttp://m.shnenglu.com/bneliao/comments/61178.htmlhttp://m.shnenglu.com/bneliao/articles/61178.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61178.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61178.html4月10日

How to get a solution?

我們所做的topic,一般有幾個階段:

Analysis: 分析問題,找到問題的關鍵

Modeling / Formulation:  對問題進行數學抽象,建立模型,或者formulate目標函數

Solving: 設計出求解的算法

Experiments: 實驗

最近的工作都集中在Solving這部分,就說說這個吧。

求解的方法

求解問題有很多不同的方法,就我知道的來說,大概有這么幾個大家族。

  1. Heuristics。 就是根據對問題的觀察而設 計的一些簡單的方法,不一定遵循什么規范,或者有什么深刻的數學根據。這類方法往往比較簡單易懂,intuition比較明顯,很多時候 performance也挺不錯的,不見得比高深的方法差,因而在實際工程中很受歡迎,幾乎應用在全部的學科。不過,好像很多朋友對這類方法頗為不屑,認 為“沒有技術含量”,或者叫做“沒有理論深度”。

    確實,有相當部分的Heuristics純粹粗制濫造,投機取巧。不過,還有很多Heuristics雖然簡單,但是切中問題要害,在 長期的復雜的實際應用中經受住了考驗。這些方法,表面看來可能只是再簡單不過的幾條四則運算公式,說不上多少理論,但是并不代表它沒有深刻的理論基礎。一 個典型的例子是Google PageRank中使用的傳導公式(簡單版本),道理和公式都很簡單,可是,做過類似工作的朋友可能都知道,它和代數圖論以及馬爾可夫隨機過程有著很深的 聯系。 又比如,Fourier Transform在剛出來的時候,僅僅是工程師的一些heuristics,后來關于它的理論已經成為了泛函分析的一個核心組成部分,也是信號處理的理 論基礎之一。

    真正好的heuristics,它的好處肯定不是瞎懵出來,而是有內在原因的。對它們的原理的探索,不斷帶動理論方面的發展,甚至創造 了新的理論方向。說到這里,有人可能會argue,這是“理論家們在故弄玄虛混飯吃”。Hmm,這種說法我不能認同,但是,確實存在“把工程方法胡亂進行 理論化”的事實。什么才叫有價值的理論化,而不是故弄玄虛,確實值得思考,這里先不展開了。

  2. Analytical Solution。 當你把 問題formulate出來后,有些情況是直接可以從問題推導出解析解的。這種情況通常存在于objective function是Linear或者Quadratic的情況。大家都很喜歡這種情況的出現,理論漂亮,實現簡潔。但是,據我的觀察,很多情況下,這種 elegance是通過減化模型換取的。把cost寫成quadratic term,把distribution假設為Gauss,很多時候都能得到這樣的結果。

    我不反對進行簡化,也欣賞漂亮的analytical solution,如果它把問題解決得很好。但是,這里面有個問題,很多能獲得簡單解析解的問題已經被做過了,剩下的很多難點,未必是一個簡化模型能有效 解決的。簡化是一種很好的方法,但是,使用起來,尤其是在實際中的應用必須慎重,要清楚了解它們可能帶來的問題。

    比如說,很多模型喜歡使用差的平方來衡量誤差大小。但是,這很早就被指出是unrobust的,一個很大的deviation會 dominate整個optimization,使得solution嚴重偏離方向。如果這種robustness在帶解決的問題中是一個必須考慮的要 素,那么用平方誤差就要仔細考慮了。

  3. Numerical Optimization。 如 果formulation沒有解析解,那么自然的想法就是使用數值方法求解。目前大家常用的是基于Gradient/Hessian之類的local optimization的方法,有時會加上random initialization。如果objective function是convex的,那么這種方法保證收斂到global optimal,這是大家很希望的。convex problem無論在formulation還是在solution的階段,都是很有學問的。很多問題可以formulate成convex的,但是未必 都那么直接,這需要有這方面的基礎。Solving一個convex problem有現成的方法,但是,如果能對問題的結構有insightful的觀察,可能能利用問題本身的特點大幅度降低求解的復雜度——這往往比直接 把問題扔進solver里面等答案更有意義。

    除了convex optimization,還有一種數值方法應用非常廣泛,叫做coordinate ascend或者alternate optimization。大概的思路是,幾個有關的變量,輪流選擇某個去優化,暫時固定其它的。在Machine Learning里面非常重要的Expectation-Maximization (EM算法)就屬于這個大家族。另外,很多復雜的graphical model采用的variational inference也是屬于此類。使用這類方法,有兩個問題:一個是如果幾個variable之間相互影響,變一個,其他跟著變的話,那么直接使用這種方 法可能是錯誤的,并不能保證收斂。另外一個問題是,如果problem不是convex的話,可能沒有任何保證你得到的solution和global solution有聯系。很可能,你得到的解和真正的全局最優解相差十萬八千里。這個沒有什么通用有效的途徑來解決。不過,針對具體問題的結構特點,在求 解過程中施加一定的引導是有可能的。

  4. Dynamic Programming。 這個方 法更多見于經典計算機算法中,不過現在越來越多在Vision和Learning見到它的影子。主要思路是把大問題分解為小問題,總結小問題的 solution為大問題的solution。至于如何設計分解和綜合的過程,依賴于對問題的觀察和分析,并無通用的法則可循。用DP解決問題的洞察力需 要逐步的積累。不少經典算法就源自于DP,比如shotest path。一個可能有用的觀察是,如果問題或者模型呈現鏈狀,樹狀,或者有向無環圖結構的,可能很有希望能通過DP高效解決。

  5. Local Exchange。 很多建立在圖上的 問題,都可以通過某種局部交換來達到全局的平衡。像Belief propagation, Junction tree等等在graphical model的重要inference方法,還有tranduction model,都用到了類似的策略。這在實踐中被證明為非常有效。但是,并不是隨便設計的局部交換過程都是收斂的。這里面需要關注兩個問題:(1)交換過程 是不是能保證某些重要的invariance不被破壞;(2)交換過程中,是不是有一個objective,比如距離全局平衡的deviation,它在 每一步都保持單調。有很多交換過程,在有向無環圖中保證收斂,但是,在帶環圖中由于信息的重復傳遞可能引起不穩定,或者不能收斂到正確的解。

  6. Monte Carlo Sampling。 蒙特 卡羅采樣的原理非常簡單,就是用樣本平均,來逼近期望(這個可能需要用intractable的積分完成,沒法直接算)。求平均很簡單,關鍵在于采樣過 程。我們求解問題,通常是在后驗分布中采樣,這種分布在大部分問題中,不要說直接采樣了,可能連解析形式都沒法給出。如果采樣問題有效解決了,基本上我們 研究的大部分問題其實都可以通過采樣完成。

    由于直接采樣往往非常困難,于是就產生了其它的方法,間接做這個事情。一種想法就是,既然p(x)不好直接采,我找一個比較容易采樣的 q(x)來逼近p(x),然后給從q(x)采出的每個樣本加一個weight,p(x) / q(x)。這在理論上被嚴格證明是對的——這種方法叫做Importance Sampling。這里的問題在于,如果q(x)和p(x)不太接近,那么采樣效率非常低下,如果在一個高維空間,可能采1000年都達不到要求。可是, 要得到一個approximate很好的q(x)本身不比直接從p(x)采樣來得容易。

    還有一種聰明一點的方法,叫sequential importance sampling。在這里面q(x),不是一蹴而就建立起來的,而是每個樣本先采一部分,然后根據那部分,確定下一部分的proposal distribution,繼續采,也就是說q(x)和樣本都是dynamically built up。這個方法在vision里面一個非常著名的應用是用于tracking,相應發展出來的方法論叫做particle filtering。

    另外一大類重要的采樣方法,叫Markov Chain Monte Carlo(MCMC)。這個的想法是,設計一個馬爾科夫鏈,讓它的平衡分布恰好是p(x),那么等它平衡時開始采。以前我們做隨機過程作業是已知一個 markov chain,求equilibrium distribution,設計MCMC就是反過來了。最重要的MCMC方法莫過于Metropolis-Hastings Algorithm和Gibbs Sampling,前者常被用于設計在solution space的隨機游走(Random walk),后者則是conditional sampling的基礎方法。

    可是Markov過程怎么轉移呢。最簡單的Random Walk結合acceptance rate之后理論上是對的。可是,讓sampler隨便亂走,猴年馬月才能把solution space走一遍阿。于是,有人提出結合一個solution space的局部信息來引導它往有用的方向走。一個重要的方法叫做Hybric Monte Carlo(HMC),想法就是把它模擬成一個物理場,把要sample的分布視為波爾茲曼分布后獲得物理場的勢能,通過哈密頓動力學模型(其實就是牛頓 力學的推廣)來驅動sampler。可是,如果問題更為復雜呢,比如整個solution space有幾個井,sample掉到某一個井可能出不來了。為了解決這個問題,一種重要的方法叫Tempering,就是開始給分子充分加熱,讓它獲得 足夠的動能能在各個井之間來回跳,然后逐步冷卻,從而能捕捉到多個勢井。

    Monte Carlo方法較早的時候主要用于統計物理,目前已經廣泛應用于計算機,生物,化學,地質學,經濟學,社會學等等的研究。這是目前所知道的用于求解復雜的 真實模型的最有效的方法。它的核心,就是猜——你直接解不出來,只好猜了,呵呵。但是,怎樣才能猜得準,則是大有學問——幾十年來各個領域關于Monte Carlo研究的工作汗牛充棟,有很多進展,但是還有很長的路要走。

和這里很多留學生一樣,我一向潛心于自己的學習和研究。可是最近,我們的世界并不寧靜,我認識的不只一個在美國的朋友受到了不太友好的挑釁——在不 知不覺中,我們可能已經身處反分裂和支持奧運的前線。我看到包括MIT CSSA在內的很多學生團體開始組織起來支持自己的祖國。我沒有具體幫上什么,但是,我對所有在用自己的行動捍衛國家榮譽的同胞懷有最深的敬意。我也希 望,我的努力,能讓外國的朋友明白中國人是值得尊敬的。





bneliao 2008-09-06 23:39 發表評論
]]>
漫話距離zzhttp://m.shnenglu.com/bneliao/articles/61147.htmlbneliaobneliaoSat, 06 Sep 2008 09:38:00 GMThttp://m.shnenglu.com/bneliao/articles/61147.htmlhttp://m.shnenglu.com/bneliao/comments/61147.htmlhttp://m.shnenglu.com/bneliao/articles/61147.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61147.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61147.html1月23日

漫話距離

我 們的生活從來不缺乏距離的概念,無論是時間的還是空間的,可以測量的還是不可以測量的。自我們來到這個世界,就會用我們還很幼小的眼睛測量著自己和身邊的 人的距離,然后跟著距離自己最近的人學叫“媽媽”;長大了,我們學會了用“距離產生美”這種不知道屬于公理還是定理的命題,提醒自己不要和心儀的mm走得 太近;而垂垂老矣的人們則開始計算自己到生命終點的距離,盤算著什么時候該立遺囑了。

什么叫距離呢?隨便翻開一本數學教科書,你會發 現,這些書會在這個或者那個角落告訴你,所謂距離,就是一個符合對稱性和三角不等式的非負二元函數。為什么要符合對稱性和三角不等式呢——大部分的書會告 訴你,這是規定——不符合的就不是距離。少部分負責任一些的書會告訴你,不符合這些條件的“距離”會多麻煩。于是你接受了。

當你放下書 本,回到我們多姿多彩的生活中的時候,這個呆板的定義似乎不能有效地解決你生活中的問題。你去hiking的時候,入口處告訴你,從山下到山上的距離是多 少多少里路,按說上山和下山的距離是一樣的,可是當你攀到山頂又走回來的時候,心里可能犯嘀咕,怎么感覺距離不一樣呢?偉大的數學家們是不會錯的。這是相 對論!——那些費了半天勁才把洛侖茲變換搞明白的人們,生怕錯過了這個機會就沒有機會顯示自己深厚的物理底蘊了。不過,我只是相信一點,根據目前人類的進 化水平,即使把世界短跑冠軍的運動速度和地球公轉自轉速度加起來再乘以10,離光速還遠著呢。

再說一個例子,不知道男同胞們是不是發 現,當你想去接近你的夢中情人的時候,距離似乎遙不可及——走出太陽系似乎都沒有那么遠,反過來,當她想接近你的時候,這個距離比任何預先給定的正實數都 小——我有點懷疑,牛頓或者萊布尼茨當年是不是有過類似體驗,才總結出了微機分——這告訴我們為什么微機分不是女生提出的。

為了能讓距 離去解釋上面說到的現象,我們有必要把它的概念推廣一下,把對稱性去掉——很多情況下,我們甚至把三角不等式也去掉。一個著名的例子,就是 Kullback-Leibler divergence——用來描述兩個分布的“距離”。大家注意了,這里定義這個的人很聰明,為了不和數學家作對,他選擇叫做divergence,而不 是distance。不過,很多信息論和統計學的書都猶抱琵琶半遮面地告訴我們,其實可以把它YY成為某種距離。伴隨著對稱性的喪失,距離的方向性出現 了。就是說從a到b的距離,和從b到a的距離是不一樣的——恩,這種推廣看起來很適合用來計算你和你心儀的人的距離,或者山頂和山腳的距離。

小 學老師告訴我們怎么去量度兩個點之間的距離,就是拿一把尺子。可是,很多時候,你沒有機會使用直尺的。你所能做的就是從這點走到那點,看看費了多少勁—— 這就是我們大多數人在生活經驗中的距離。黎曼老先生,作為理論聯系實際的代表,第一次從在數學上總結了這種生活上的距離——geodesic distance,中文叫做測地距離。它是怎么算距離的呢?就是從起點出發,一步步走向目標,然后把每一步費了多少勁加起來。至于,每一步費了多少勁怎么 算,大家都可以有不同的算法——但是,這些都叫Riemann Metric。 為了大家計算距離時的身體健康,鼓勵大家節省能源,規定,只有按照最省事的方法到達目標,這樣算出來的才叫距離。 不過,在很多實際應用中,大家只能找到比較省事的方法,未必是“最省的”,也睜一只眼閉一只眼,把算出來的東西追加“距離”的光榮稱號。

打 破對稱性的千年枷鎖,扔掉直尺這種陳腐工具,人們獲得了空前的思想解放。男生和女生們開始附庸風雅地用曾經只存在于象牙塔的概念——距離——去評價自己和 她或者他的關系。如何評價,見仁見智——在我看來,很多人的metric里面不外乎寫了多少情書,給電信公司貢獻了多少短信費,qq/msn在線了多少時 間,又或者吃了多少頓麥當勞。。。。。。在這個定義的基礎上,“距離產生美”——這個掛在多少人口頭的箴言橫空出世了。根據距離就是費了多少勁的意思,這 句話告訴我們,只有費了很多功夫,死了無數腦細胞,才能得到,或者還得不到的才是美的;信手而獲,不需要追求的,就談不上美了。從這個意義上說,這句話和 高中的學到的“勞動產生價值”的道理是一樣的,只不過,“勞動產生價值”是物質層次的——太俗了,“距離產生美”是精神層次的,檔次和格調顯然不一樣。





bneliao 2008-09-06 17:38 發表評論
]]>
學習數學zzhttp://m.shnenglu.com/bneliao/articles/61143.htmlbneliaobneliaoSat, 06 Sep 2008 09:34:00 GMThttp://m.shnenglu.com/bneliao/articles/61143.htmlhttp://m.shnenglu.com/bneliao/comments/61143.htmlhttp://m.shnenglu.com/bneliao/articles/61143.html#Feedback1http://m.shnenglu.com/bneliao/comments/commentRss/61143.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61143.html1月9日

學習數學

感覺數學似乎總是不夠的。這些日子為了解決research中的一些問題,又在圖書館捧起了數學的教科書。

從 大學到現在,課堂上學的和自學的數學其實不算少了,可是在研究的過程中總是發現需要補充新的數學知識。Learning和Vision都是很多種數學的交 匯場。看著不同的理論體系的交匯,對于一個researcher來說,往往是非常exciting的enjoyable的事情。不過,這也代表著要充分了 解這個領域并且取得有意義的進展是很艱苦的。

記得在兩年前的一次blog里面,提到過和learning有關的數學。今天看來,我對于數學在這個領域的作用有了新的思考。

對于Learning的研究,

Linear Algebra (線性代數)Statistics (統計學) 是最重要和不可缺少的。這代表了Machine Learning中最主流的兩大類方法的基礎。一種是以研究函數和變換為重點的代數方法,比如Dimension reduction,feature extraction,Kernel等,一種是以研究統計模型和樣本分布為重點的統計方法,比如Graphical model, Information theoretical models等。它們側重雖有不同,但是常常是共同使用的,對于代數方法,往往需要統計上的解釋,對于統計模型,其具體計算則需要代數的幫助。

以代數和統計為出發點,繼續往深處走,我們會發現需要更多的數學。

Calculus (微積分),只 是數學分析體系的基礎。其基礎性作用不言而喻。Learning研究的大部分問題是在連續的度量空間進行的,無論代數還是統計,在研究優化問題的時候,對 一個映射的微分或者梯度的分析總是不可避免。而在統計學中,Marginalization和積分更是密不可分——不過,以解析形式把積分導出來的情況則 不多見。

Partial Differential Equation (偏微分方程)這主要用于描述動態過程,或者仿動態過程。這個學科在Vision中用得比Learning多,主要用于描述連續場的運動或者擴散過程。比如Level set, Optical flow都是這方面的典型例子。

Functional Analysis (泛函分析), 通俗地,可以理解為微積分從有限維空間到無限維空間的拓展——當然了,它實際上遠不止于此。在這個地方,函數以及其所作用的對象之間存在的對偶關系扮演了 非常重要的角色。Learning發展至今,也在向無限維延伸——從研究有限維向量的問題到以無限維的函數為研究對象。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡單理解為Kernel trick的運用,這就把kernel的意義嚴重弱化了。在泛函里面,Kernel (Inner Product) 是建立整個博大的代數體系的根本,從metric, transform到spectrum都根源于此。

Measure Theory (測度理論),這 是和實分析關系非常密切的學科。但是測度理論并不限于此。從某種意義上說,Real Analysis可以從Lebesgue Measure(勒貝格測度)推演,不過其實還有很多別的測度體系——概率本身就是一種測度。測度理論對于Learning的意義是根本的,現代統計學整 個就是建立在測度理論的基礎之上——雖然初級的概率論教科書一般不這樣引入。在看一些統計方面的文章的時候,你可能會發現,它們會把統計的公式改用測度來 表達,這樣做有兩個好處:所有的推導和結論不用分別給連續分布和離散分布各自寫一遍了,這兩種東西都可以用同一的測度形式表達:連續分布的積分基于 Lebesgue測度,離散分布的求和基于計數測度,而且還能推廣到那種既不連續又不離散的分布中去(這種東西不是數學家的游戲,而是已經在實用的東西, 在Dirchlet Process或者Pitman-Yor Process里面會經常看到)。而且,即使是連續積分,如果不是在歐氏空間進行,而是在更一般的拓撲空間(比如微分流形或者變換群),那么傳統的黎曼積 分(就是大學一年級在微積分課學的那種)就不work了,你可能需要它們的一些推廣,比如Haar Measure或者Lebesgue-Stieltjes積分。

Topology(拓撲學),這 是學術中很基礎的學科。它一般不直接提供方法,但是它的很多概念和定理是其它數學分支的基石。看很多別的數學的時候,你會經常接觸這樣一些概念:Open set / Closed set,set basis,Hausdauf,  continuous function,metric space,  Cauchy sequence, neighborhood,  compactness, connectivity。很多這些也許在大學一年級就學習過一些,當時是基于極限的概念獲得的。如果,看過拓撲學之后,對這些概念的認識會有根本性的拓 展。比如,連續函數,當時是由epison法定義的,就是無論取多小的正數epsilon,都存在xxx,使得xxx。這是需要一種metric去度量距 離的,在general topology里面,對于連續函數的定義連坐標和距離都不需要——如果一個映射使得開集的原像是開集,它就是連續的——至于開集是基于集合論定義的,不 是通常的開區間的意思。這只是最簡單的例子。當然,我們研究learning也許不需要深究這些數學概念背后的公理體系,但是,打破原來定義的概念的局限 在很多問題上是必須的——尤其是當你研究的東西它不是在歐氏空間里面的時候——正交矩陣,變換群,流形,概率分布的空間,都屬于此。

Differential Manifold (微分流形), 通俗地說它研究的是平滑的曲面。一個直接的印象是它是不是可以用來fitting一個surface什么的——當然這算是一種應用,但是這是非常初步的。 本質上說,微分流形研究的是平滑的拓撲結構。一個空間構成微分流形的基本要素是局部平滑:從拓撲學來理解,就是它的任意局部都同胚于歐氏空間,從解析的角 度來看,就是相容的局部坐標系統。當然,在全局上,它不要求和歐氏空間同胚。它除了可以用于刻畫集合上的平滑曲面外,更重要的意義在于,它可以用于研究很 多重要的集合。一個n-維線性空間的全部k-維子空間(k < n)就構成了一個微分流形——著名的Grassman Manifold。所有的標準正交陣也構成一個流形。一個變換群作用于一個空間形成的軌跡(Orbit) 也是通常會形成流形。在流形上,各種的分析方法,比如映射,微分,積分都被移植過來了。前一兩年在Learning里面火了好長時間的Manifold Learning其實只是研究了這個分支的其中一個概念的應用: embedding。其實,它還有很多可以發掘的空間。

Lie Group Theory (李群論),一 般意義的群論在Learning中被運用的不是很多,群論在Learning中用得較多的是它的一個重要方向Lie group。定義在平滑流行上的群,并且其群運算是平滑的話,那么這就叫李群。因為Learning和編碼不同,更多關注的是連續空間,因為Lie group在各種群中對于Learning特別重要。各種子空間,線性變換,非奇異矩陣都基于通常意義的矩陣乘法構成李群。在李群中的映射,變換,度量, 劃分等等都對于Learning中代數方法的研究有重要指導意義。

Graph Theory(圖論),圖, 由于它在表述各種關系的強大能力以及優雅的理論,高效的算法,越來越受到Learning領域的歡迎。經典圖論,在Learning中的一個最重要應用就 是graphical models了,它被成功運用于分析統計網絡的結構和規劃統計推斷的流程。Graphical model所取得的成功,圖論可謂功不可沒。在Vision里面,maxflow (graphcut)算法在圖像分割,Stereo還有各種能量優化中也廣受應用。另外一個重要的圖論分支就是Algebraic graph theory (代數圖論),主要運用于圖的譜分析,著名的應用包括Normalized Cut和Spectral Clustering。近年來在semi-supervised learning中受到特別關注。





bneliao 2008-09-06 17:34 發表評論
]]>
關于平均值zzhttp://m.shnenglu.com/bneliao/articles/61140.htmlbneliaobneliaoSat, 06 Sep 2008 09:06:00 GMThttp://m.shnenglu.com/bneliao/articles/61140.htmlhttp://m.shnenglu.com/bneliao/comments/61140.htmlhttp://m.shnenglu.com/bneliao/articles/61140.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61140.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61140.html1月27日

關于平均值

小時候,老師就告訴我們,讀書講究先由薄而厚,再由厚而薄。前者是吸收和積累,后者是融會和消化。

這些年,讀了不少關于統計學習的東西,很多東西都記不清楚了。從我自己的角度看來(可能是很膚淺的),學概率和統計,關鍵是記住三個概念:測度(measure),期望(expectation),和獨立性(independence)。

測度是現代概率理論的基石。在經典的概率論里面——比如我們在本科學的那些——大多是通過舉例子和文字說明的方式告訴你概率是什么,這容易 明白,不過缺乏嚴密的公理化根基。現代概率論整個建立在測度理論的基礎上,概率的定義非常簡單,不過也很抽象——所謂“概率”,就是歸一化的測度。沒有測 度,就沒有整個概率論的大廈,所以它很重要——不過,它在實用中直接用上的機會不大,所以不是這篇文章的主體。關于獨立性,以及它的一個孿生的名 詞:Markov,也扮演著非常重要的角色,它是Graphical models的基礎。有興趣的可以去讀M. I. Jordan的書。

而在統計學習的實際應用中,就是你平時寫code,用得最多的就是期望,或者一個通俗點的版本——平均值。其實這兩者不太一樣,期望是從model出發演繹的,平均值通常是指從data出發歸納的。不過它們的關系確實非常密切。

統計學習在很多情況下,就是求平均值

我們平常說去Learn一個model——其實,在很多情況下,這就是干一件聽上去很簡單的事情,求平均值。我們知道,我們所接觸的大部分 重要的概率分布,都屬于exponential family,比如Gauss, Binomial, Multinomial, Dirichlet, Poisson, Exponential, Gamma等等分布都屬于這個家族。它的一個重要特點就是——得期望者得天下。就是說,知道了某些統計量的期望,就知道了整個model,至于model 的參數,或者就是期望本身(比如Gauss),或者不難從期望中得到。可以證明,對于這些model,對它們的最大似然估計(Maximum Likelihood estimation),就是從data中算出某些統計量的平均值作為model的期望。

在Bayes學習中,我們還考慮先驗分布(prior)。在這里,model的估計還是求平均值。所謂prior是怎么來的?就是以前 曾經觀察過的data那里總結得到的,然后以prior的形式影響當前的model估計。一般而言,使用exponential family,我們通常會使用conjugate prior,這種prior,基本就是沿著剛才說的,假想我們已經看過一些data的思路得到的,它的形式和data mean幾乎如出一轍。而帶了prior的估計,還是在求平均值,不過這里的平均值就是(假想)以前觀察過的數據和當前的數據合在一起求平均。

對于更加復雜的Graphical model,每個節點的estimate和update,很多時候,其實是做了這樣的事情——把其它節點傳來的平均值和這個節點接觸的數據的平均值混合進 行新的平均。從最簡單的Gauss, 到更加復雜的Gaussian Mixture Model, Latent Dirichlet Allocation, Markov Random Field, Generalized Kalman Filtering概莫能外——大家可以仔細看看它們的每一個update公式,看看哪個不是在求平均值。

怎樣求平均值

平均值是很重要的。不過怎么求呢?這似乎是小學初中就解決了的問題。不過,求平均值的世界其實是如此博大精深。如果說它是少林武學,我現在這點水平,也就夠在嵩山下掃掃地罷了。很多在世界上赫赫有名的數學家,窮畢生心血,方能一窺堂奧。

雖然,只有掃地的水平,不過起碼也看過大師們練武。這門學問主要有兩個方面:得到data求平均值,得到model求期望。

先說說求data的平均值。這太簡單了,有什么好說的。不就是加法和乘法么,小學學過算術的人都會算,即使沒學過,拿個計算器也照樣算。在 通常的實數空間內,確實很簡單;不過對于一般的求平均值的情況,就非常非常困難了。一般來說,求平均值有兩個流派,一種是基于線性代數(linear algebra),另外一種是基于度量空間(metric space)。前面一種大家很熟悉:

m = (x1 + x2 + ... + xn) * (1/n)。

這是我們讀了這么多年書最常見的平均值。不過,這樣定義太局限了,它要求這些東西能做加法和數乘——我不得不說,這個要求實在太高,只有線性空間 (這種空間是數學里面的貴族,它們什么好處都全了)能夠滿足——對于數學領域更廣大的人民群眾(各種更一般的數學結構,比如群,拓撲流形),加法和數乘簡 直是一種奢侈得不切實際的活動。

其實平均值是一個非常廣泛的概念,不僅僅存在于線性空間中,還為廣大人民群眾服務。對于某個度量空間,它的一般性定義是這么給出的

使得 d(m, x1) + d(m, x2) + ... + d(m, xn) 最小的那個m

也就是說,求平均值是一個優化問題。關于這個問題,在不同的空間中有不同的答案:在最高級的希爾伯特空間中(定義了內積的完備線性空間),m就是上 面給出的基于線性代數的形式。所以說,基于線性代數的定義僅僅是基于度量空間的定義的一個特例。不過由于這個特例被廣泛使用,所以大家一說平均值就想起 它,而不是一般形式。在推廣一些的巴拿赫空間中(定義了范數的完備線性空間),上述的問題是一個凸優化問題,因為范數必然是凸函數。它具有唯一的最優解。

最困難的是在非線性空間中。一個典型的例子是黎曼流形(注意,這里我們只討論黎曼流形,對于更為一般的拓撲流形或者微分流形,因為不具有 度量結構,所以不能定義均值。)在黎曼流形上,兩點間的距離是通過測地距離給出的。在黎曼流形上,通過測地距離定義的平均值,叫做黎曼中心。一部分朋友對 于這幾個術語可能不太熟悉,還是舉個形象點的例子。比如,在地球上給出幾個地點,你要在地面上找一個“平均地點”,使得它到那幾個地點的“地面距離”的平 方和最小。如果,用傳統的算術方法拿這些地點的三維坐標來算,你估計得在那鉆個油井了。對于“球面平均”問題(專門一點的說法叫做特殊正交群SO(3)的 黎曼中心,恩,這個名詞我也有點暈),到了在本世紀,在數學里依舊可以發paper,目前還沒有一般情況下的解析解。

別的領域我不懂,不過“球面平均”在vision里面價值是很大的,它是對三維旋轉變換建立統計模型的基礎——我們再一次看到了求平均 值對于統計的重要意義。球面平均求的是“平均”的旋轉,如果對于一般的仿射變換(Affiine transform),“平均”的變換又怎么求呢?這是個open problem,留待大家思考。

怎樣求期望

說完從data求平均值,再說說從model得到期望(expectation)——這們學問就更博大了。雖然,期望的定義很簡單——求和或者積分就行了。不過,它的實際計算,對于很多實際模型是intractable的。

概率論最早源于擲色子,我們的前輩數學家們為了破解求復雜模型求期望的問題,提出的方法就是擲色子。在學術上,美其名曰“蒙特卡羅方法”(Monte Carlo)。原理很簡單,不斷地擲色子來大量采樣,然后從采來的樣本求平均值來逼近模型的期望。

擲色子是世界上最有學問的之一,正因為如此,我們對于“賭神”,“賭王”之類的人物崇拜猶如滔滔江水,因為它們擲色子擲得好。無數的統計學家把畢生經歷奉獻給擲色子(采樣)事業,并且做出偉大成就。關于采樣的專著和文獻,汗牛充棟。

擲色子就這么難么?是的。據估算,即使對于一個復雜度不高的model,要得到一個可以接受的估計,所需的樣本量往往大得驚人,而且指數增 長。如果不掌握要領,你即使擲到宇宙末日,估計離一個靠譜的估計還遠著呢。采樣技術名目繁多,最流行的莫過于重要性采樣(importance sampling)和馬爾科夫鏈蒙特卡羅過程(MCMC)。具體就不多說了。





bneliao 2008-09-06 17:06 發表評論
]]>
Learning中的代數結構的建立zzhttp://m.shnenglu.com/bneliao/articles/61139.htmlbneliaobneliaoSat, 06 Sep 2008 09:04:00 GMThttp://m.shnenglu.com/bneliao/articles/61139.htmlhttp://m.shnenglu.com/bneliao/comments/61139.htmlhttp://m.shnenglu.com/bneliao/articles/61139.html#Feedback0http://m.shnenglu.com/bneliao/comments/commentRss/61139.htmlhttp://m.shnenglu.com/bneliao/services/trackbacks/61139.html

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2489.entry

7月9日

Learning中的代數結構的建立

Learning是一個融會多種數學于一體的領域。說起與此有關的數學學科,我們可能會迅速聯想到線性代數以及建立在向量空間基礎上的統計模型——事實上,主流的論文中確實在很大程度上基于它們。

R^n (n-維實向量空間) 是我們在paper中見到最多的空間,它確實非常重要和實用,但是,僅僅依靠它來描述我們的世界并不足夠。事實上,數學家們給我們提供了豐富得多的工具。

“空間”(space),這是一個很有意思的名詞,幾乎出現在所有的數學分支的基礎定義之中。歸納起來,所謂空間就是指一個集合以及在上面定義的某種數學結構。關于這個數學結構的定義或者公理,就成為這個數學分支的基礎,一切由此而展開。

還是從我們最熟悉的空間——R^n 說起吧。大家平常使用這個空間的時候,除了線性運算,其實還用到了別的數學結構,包括度量結構和內積結構。

第 一,它是一個拓撲空間(Topological space)。而且從拓撲學的角度看,具有非常優良的性質:Normal (implying Hausdorff and Regular), Locally Compact, Paracompact, with Countable basis, Simply connected (implying connected and path connected), Metrizable. 

第二,它是一個度量空間(Metric space)。我們可以計算上面任意兩點的距離。

第三,它是一個有限維向量空間(Finite dimensional space)。因此,我們可以對里面的元素進行代數運算(加法和數乘),我們還可以賦予它一組有限的基,從而可以用有限維坐標表達每個元素。

第四,基于度量結構和線性運算結構,可以建立起分析(Analysis)體系。我們可以對連續函數進行微分,積分,建立和求解微分方程,以及進行傅立葉變換和小波分析。

第 五,它是一個希爾伯特空間(也就是完備的內積空間)(Hilbert space, Complete inner product space)。它有一套很方便計算的內積(inner product)結構——這個空間的度量結構其實就是從其內積結構誘導出來。更重要的,它是完備的(Complete)——代表任何一個柯西序列 (Cauchy sequence)都有極限——很多人有意無意中其實用到了這個特性,不過習慣性地認為是理所當然了。

第六,它上面的線性映射構成的算子空間仍舊是有限維的——一個非常重要的好處就是,所有的線性映射都可以用矩陣唯一表示。特別的,因為它是有限維完備空間,它的泛函空間和它本身是同構的,也是R^n。因而,它們的譜結構,也就可以通過矩陣的特征值和特征向量獲得。

第七,它是一個測度空間——可以計算子集的大小(面積/體積)。正因為此,我們才可能在上面建立概率分布(distribution)——這是我們接觸的絕大多數連續統計模型的基礎。

我 們可以看到,這是一個非常完美的空間,為我們的應用在數學上提供了一切的方便,在上面,我們可以理所當然地認為它具有我們希望的各種良好性質,而無須特別 的證明;我們可以直接使用它的各種運算結構,而不需要從頭建立;而且很多本來不一樣的概念在這里變成等價的了,我們因此不再需要辨明它們的區別。

以此為界,Learning的主要工作分成兩個大的范疇:

  1. 建立一種表達形式,讓它處于上面討論的R^n空間里面。
  2. 獲得了有限維向量表達后,建立各種代數算法或者統計模型進行分析和處理。

這里只討論第一個范疇。先看看,目前用得比較廣泛的一些方法:

  1. 直 接基于原始數據建立表達。我們關心的最終目標是一個個現實世界中的對象:一幅圖片,一段語音,一篇文章,一條交易記錄,等等。這些東西大部分本身沒有附著 一個數值向量的。為了構造一個向量表達,我們可以把傳感器中記錄的數值,或者別的什么方式收集的數值數據按照一定的順序羅列出來,就形成一個向量了。如果 有n個數字,就認為它們在R^n里面。

不過,這在數學上有一點小問題,在大部分情況下,根據數據產生的物理原理,這些向量的值域并不能 充滿整個空間。比如圖像的像素值一般是正值,而且在一個有界閉集之中。這帶來的問題是,對它們進行線性運算很可能得到的結果會溢出正常的范圍——在大部分 paper中,可能只是采用某些heuristics的手段進行簡單處理,或者根本不管,很少見到在數學上對此進行深入探討的——不過如果能解決實際問 題,這也是無可厚非的,畢竟不是所有的工作都需要像純數學那樣追求嚴謹。

  1. 量化(quantization)。這是 在處理連續信號時被廣泛采用的方式。只是習以為常,一般不提名字而已。比如一個空間信號(Vision中的image)或者時間信號,它們的domain 中的值是不可數無限大的(uncountably infinite),不要說表示為有限維向量,即使表達為無限序列也是不可能的。在這種情況下,一般在有限域內,按照一定順序每隔一定距離取一個點來代表 其周圍的點,從而形成有限維的表達。這就是信號在時域或空域的量化。

這樣做不可避免要丟失信息。但是,由于小鄰域內信號的高度相關,信息丟失的程度往往并不顯著。而且,從理論上說,這相當于在頻域中的低通過率。對于有限能量的連續信號,不可能在無限高的頻域中依然保持足夠的強度,只要采樣密度足夠,丟失的東西可以任意的少。

除了表示信號,對于幾何形體的表達也經常使用量化,比如表示curve和surface。

  1. 找 出有限個數充分表達一個對象也許不是最困難的。不過,在其上面建立數學結構卻未必了。一般來說,我們要對其進行處理,首先需要一個拓撲結構用以描述空間上 的點是如何聯系在一起。直接建立拓撲結構在數學上往往非常困難,也未必實用。因此,絕大部分工作采取的方式是首先建立度量結構。一個度量空間,其度量會自 然地誘導出一個拓撲結構——不過,很多情況下我們似乎會無視它的存在。

最簡單的情況,就是使用原始向量表達的歐氏距離 (Euclidean distance)作為metric。不過,由于原始表達數值的不同特性,這種方式效果一般不是特別好,未必能有效表達實際對象的相似性(或者不相似 性)。因此,很多工作會有再此基礎上進行度量的二次建立。方式是多種多樣的,一種是尋求一個映射,把原空間的元素變換到一個新的空間,在那里歐氏距離變得 更加合適。這個映射發揮的作用包括對信息進行篩選,整合,對某些部分進行加強或者抑制。這就是大部分關于feature selection,feature extraction,或者subspace learning的文章所要做的。另外一種方式,就是直接調節距離的計算方式(有些文章稱之為metric learning)。

這兩種方式未必是不同的。如果映射是單射,那么它相當于在原空間建立了一個不同的度量。反過來,通過改變距離計算方式建立的度量在特定的條件下對應于某種映射。

  1. 大 家可能注意到,上面提到的度量建立方法,比如歐氏距離,它需要對元素進行代數運算。對于普通的向量空間,線性運算是天然賦予的,我們無須專門建立,所以可 以直接進行度量的構造——這也是大部分工作的基礎。可是,有些事物其原始表達不是一個n-tuple,它可能是一個set,一個graph,或者別的什么 特別的object。怎么建立代數運算呢?

一種方法是直接建立。就是給這些東西定義自己的加法和數乘。這往往不是那么直接(能很容易建 立的線性運算結構早已經被建立好并廣泛應用了),可能需要涉及很深的數學知識,并且要有對問題本身的深入了解和數學上的洞察力。不過,一個新的代數結構一 旦建立起來,其它的數學結構,包括拓撲,度量,分析,以及內積結構也隨之能被自然地誘導出來,我們也就具有了對這個對象空間進行各種數學運算和操作的基 礎。加法和數乘看上去簡單,但是如果我們對于本來不知道如何進行加法和數乘的空間建立了這兩樣東西,其理論上的貢獻是非常大的。

(一個 小問題:大家常用各種graphical model,但是,每次這些model都是分別formulate,然后推導出estimation和evaluation的步驟方法。是否可能 對"the space of graphical model"或者它的某個特定子集建立某種代數結構呢?(不一定是線性空間,比如群,環,廣群, etc)從而使得它們在代數意義上統一起來,而相應的estimation或者evaluation也可以用過代數運算derive。這不是我的研究范 圍,也超出了我目前的能力和知識水平,只是我相信它在理論上的重要意義,留作一個遠景的問題。事實上,數學中確實有一個分支叫做 Algebraic statistics 可能在探討類似的問題,不過我現在對此了解非常有限。)

  1. 回到我們的正題,除了直接建立運算 定義,另外一種方式就是嵌入(embedding)到某個向量空間,從而繼承其運算結構為我所用。當然這種嵌入也不是亂來,它需要保持原來這些對象的某種 關系。最常見的就是保距嵌入(isometric embedding),我們首先建立度量結構(繞過向量表達,直接對兩個對象的距離通過某種方法進行計算),然后把這個空間嵌入到目標空間,通常是有限維 向量空間,要求保持度量不變。

“嵌入”是一種在數學上應用廣泛的手段,其主要目標就是通過嵌入到一個屬性良好,結構豐富的空間,從而利 用其某種結構或者運算體系。在拓撲學中,嵌入到metric space是對某個拓撲空間建立度量的重要手段。而在這里,我們是已有度量的情況下,通過嵌入獲取線性運算的結構。除此以來,還有一種就是前些年比較熱的 manifold embedding,這個是通過保持局部結構的嵌入,獲取全局結構,后面還會提到。

  1. 接下來的一 個重要的代數結構,就是內積(inner product)結構。內積結構一旦建立,會直接誘導出一種性質良好的度量,就是范數(norm),并且進而誘導出拓撲結構。一般來說,內積需要建立在線 性空間的基礎上,否則連一個二元運算是否是內積都無法驗證。不過,kernel理論指出,對于一個空間,只要定義一個正定核(positive kernel)——一個符合正定條件的二元運算,就必然存在一個希爾伯特空間,其內積運算等效于核運算。這個結論的重要意義在于,我們可以繞開線性空間, 通過首先定義kernel的方式,誘導出一個線性空間(叫做再生核希爾伯特空間 Reproducing Kernel Hilbert Space),從而我們就自然獲得我們所需要的度量結構和線性運算結構。這是kernel theory的基礎。

在很多教科書中,以二 次核為例子,把二維空間變成三維,然后告訴大家kernel用于升維。對于這種說法,我一直認為在一定程度上是誤導的。事實上,kernel的最首要意義 是內積的建立(或者改造),從而誘導出更利于表達的度量和運算結構。對于一個問題而言,選擇一個切合問題的kernel比起關注“升維”來得更為重要。

kernel被視為非線性化的重要手段,用于處理非高斯的數據分布。這是有道理的。通過nonlinear kernel改造的內積空間,其結構和原空間的結構確實不是線性關聯,從這個意義上說,它實施了非線性化。不過,我們還應該明白,它的最終目標還是要回到 線性空間,新的內積空間仍舊是一個線性空間,它一旦建立,其后的運算都是線性的,因此,kernel的使用就是為了尋求一個新的線性空間,使得線性運算更 加合理——非線性化的改造最終仍舊是要為線性運算服務。

值得一提的是,kernelization本質上說還是一種嵌入過程:對于一個空間先建立內積結構,并且以保持內積結構不變的方式嵌入到一個高維的線性空間,從而繼承其線性運算體系。

  1. 上 面說到的都是從全局的方式建立代數結構的過程,但是那必須以某種全局結構為基礎(無論預先定義的是運算,度量還是內積,都必須適用于全空間。)但是,全局 結構未必存在或者適合,而局部結構往往簡單方便得多。這里就形成一種策略,以局部而達全局——這就是流形(manifold)的思想,而其則根源于拓撲 學。

從拓撲學的角度說,流形就是一個非常優良的拓撲空間:符合Hausdorff分離公理(任何不同的兩點都可以通過不相交的鄰域分 離),符合第二可數公理(具有可數的拓撲基),并且更重要的是,局部同胚于R^n。因此,一個正則(Regular)流形基本就具有了各種最良好的拓撲特 性。而局部同胚于R^n,代表了它至少在局部上可以繼承R^n的各種結構,比如線性運算和內積,從而建立分析體系。事實上,拓撲流形繼承這些結構后形成的 體系,正是現代流形理論研究的重點。繼承了分析體系的流形,就形成了微分流形(Differential manifold),這是現代微分幾何的核心。而微分流形各點上的切空間(Tangent Space),則獲得了線性運算的體系。而進一步繼承了局部內積結構的流形,則形成黎曼流形(Riemann manifold),而流形的全局度量體系——測地距離(geodesics)正是通過對局部度量的延伸來獲得。進一步的,當流行本身的拓撲結構和切空間 上的線性結構發生關系——也就獲得一簇拓撲關聯的線性空間——向量叢(Vector bundle)。

雖然manifold theory作為現代幾何學的核心,是一個博大精深的領域,但是它在learning中的應用則顯得非常狹窄。事實上,對于manifold,很多做 learning的朋友首先反應的是ISOMAP, LLE, eigenmap之類的算法。這些都屬于embedding。當然,這確實是流形理論的一個重要方面。嚴格來說,這要求是從原空間到其映像的微分同胚映 射,因此,嵌入后的空間在局部上具有相同的分析結構,同時也獲得了各種好處——全局的線性運算和度量。不過,這個概念在learning的應用中被相當程 度的放寬了——微分同胚并不能被完全保證,而整個分析結構也不能被完全保持。大家更關注的是保持局部結構中的某個方面——不過這在實際應用中的折衷方案也 是可以理解的。事實表明,當原空間中的數據足夠密集的情況下,這些算法工作良好。

Learning中流形應用的真正問題在于它被過濫地 運用于稀疏空間(Sparse space),事實上在高維空間中撒進去幾千乃至幾十萬點,即使最相鄰的幾點也難稱為局部了,局部的范圍和全局的范圍其實已經沒有了根本差別,連局部的概 念都立不住腳的時候,后面基于其展開的一切工作也都沒有太大的意義。事實上,稀疏空間有其本身的規律和法則,通過局部形成全局的流形思想從本質上是不適合 于此的。雖然,流形是一種非常美的理論,但是再漂亮的理論也需要用得其所——它應該用于解決具有密集數據分布的低維空間。至于,一些paper所報告的在 高維空間(比如人臉)運用流形方法獲得性能提升,其實未必是因為“流形”本身所起的作用,而很可能是其它方面的因素。

  1. 流 形在實際應用中起重要作用的還有兩個方面:一個是研究幾何形體的性質(我們暫且不談這個),還有就是它和代數結構的結合形成的李群(Lie group)和李代數(Lie algebra)。 當我們研究的對象是變換本身的時候,它們構成的空間是有其特殊性的,比如所有子空間投影形成了Grassmann流形,所有的可逆線性算子,或者仿射算 子,也形成各自的流形。對他們的最重要操作是變換的結合,而不是加法數乘,因此,它們上面定義的更合適的代數結構應該是群和不是線性空間。而群和微分流形 的結合體——李群則成為它們最合適的描述體系——而其切空間則構成了一種加強的線性空間:李代數,用于描述其局部變化特性。

李代數和李 群的關系是非常漂亮的。它把變換的微變化轉換成了線性空間的代數運算,使得移植傳統的基于線性空間的模型和算法到李空間變得可能。而且李代數中的矩陣比起 變換本身的矩陣甚至更能反映變換的特性。幾何變換的李代數矩陣的譜結構就能非常方便地用于分析變換的幾何特性。

最后,回頭總結一下關于 嵌入這個應用廣泛的策略,在learning中的isometry, kernel和manifold embedding都屬于此范疇,它們分別通過保持原空間的度量結構,內積結構和局部結構來獲得到目標(通常是向量空間)的嵌入,從而獲得全局的坐標表 達,線性運算和度量,進而能被各種線性算法和模型所應用。

在獲得這一系列好處的同時,也有值得我們注意的地方。首先,嵌入只是一種數學 手段,并不能取代對問題本身的研究和分析。一種不恰當的原始結構或者嵌入策略,很多時候甚至適得其反——比如稀疏空間的流形嵌入,或者選取不恰當的 kernel。另外,嵌入適合于分析,而未必適合于重建或者合成。這是因為嵌入是一個單射(injection),目標空間不是每一個點都和原空間能有效 對應的。嵌入之后的運算往往就打破了原空間施加的限制。比如兩個元素即使都是從原空間映射過來,它們的和卻未必有原像,這時就不能直接地回到原空間了。當 然可以考慮在原空間找一個點它的映射與之最近,不過這在實際中的有效性是值得商榷的。

和Learning有關的數學 世界是非常廣博的,我隨著學習和研究的深入,越來越發現在一些我平常不注意的數學分支中有著適合于問題的結構和方法。比如,廣群(groupoid)和廣 代數(algebroid)能克服李群和李代數在表示連續變換過程中的一些困難——這些困難困擾了我很長時間。解決問題和建立數學模型是相輔相成的,一方 面,一個清晰的問題將使我們有明確的目標去尋求合適的數學結構,另一方面,對數學結構的深入理解對于指導問題的解決也是有重要作用的。對于解決一個問題來 說,數學工具的選擇最重要的是適合,而不是高深,但是如果在現有數學方法陷入困難的時候,尋求更高級別的數學的幫助,往往能柳暗花明。數學家長時間的努力 解決的很多問題,并不都是理論游戲,他們的解決方案中很多時候蘊含著我們需要的東西,而且可能導致對更多問題的解決——但是我們需要時間去學習和發現它 們。

 



bneliao 2008-09-06 17:04 發表評論
]]>
一本久久免费视频| 国产精品久久久久久久久| 久久性精品| 伊人久久综合精品无码AV专区| 精品多毛少妇人妻AV免费久久| 狠狠精品干练久久久无码中文字幕| 亚洲精品无码久久毛片| 久久Av无码精品人妻系列| 久久精品国内一区二区三区| 国产精品va久久久久久久| 综合网日日天干夜夜久久 | 久久综合综合久久97色| 久久精品人人做人人爽电影| 亚洲日本va午夜中文字幕久久| 国产精品一久久香蕉国产线看观看| 久久久久亚洲av成人无码电影 | 久久久久人妻一区精品性色av| 久久精品国产一区二区三区日韩| 久久成人小视频| 久久久WWW成人免费精品| aaa级精品久久久国产片| 无码任你躁久久久久久久| 狠狠色丁香婷综合久久| 伊人久久精品无码二区麻豆| 人妻无码精品久久亚瑟影视| 久久综合狠狠色综合伊人| 国产情侣久久久久aⅴ免费| 国产成年无码久久久免费| 久久毛片免费看一区二区三区| 久久夜色精品国产亚洲| 精品久久一区二区三区| 久久99精品久久只有精品| 亚洲日韩中文无码久久| 久久久久久久波多野结衣高潮 | 2021最新久久久视精品爱| 国产精品青草久久久久福利99| 精品久久久久久无码中文字幕一区| 久久精品国产男包| 狠狠色婷婷久久一区二区| 亚洲精品高清一二区久久| 亚洲国产精品无码久久久久久曰|