国产精品毛片a∨一区二区三区,亚洲免费视频在线观看,欧美99久久

在數(shù)學(xué)的海洋中飄蕩zz

bneliao — Sun, 08 Mar 2009 16:00:00 GMT

在數(shù)學(xué)的海洋中飄蕩
http://dahuasky.spaces.live.com/blog/cns!1AB3BC993DB84FD7!305.entry

在過去的一年中，我一直在數(shù)學(xué)的海洋中游蕩，research進展不多，對于數(shù)學(xué)世界的閱歷算是有了一些長進。
為什么要深入數(shù)學(xué)的世界

作為計算機的學(xué)生，我沒有任何企圖要成為一個數(shù)學(xué)家。我學(xué)習(xí)數(shù)學(xué)的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的東西看得更深廣一些。說起來，我在剛來這個學(xué)校的時候，并沒有預(yù)料到我將會有一個深入數(shù)學(xué)的旅程。我的導(dǎo)師最初希望我去做的題目，是對appearance和motion建立一個unified的model。這個題目在當(dāng)今Computer Vision中百花齊放的世界中并沒有任何特別的地方。事實上，使用各種Graphical Model把各種東西聯(lián)合在一起framework，在近年的論文中并不少見。

我不否認現(xiàn)在廣泛流行的Graphical Model是對復(fù)雜現(xiàn)象建模的有力工具，但是，我認為它不是panacea，并不能取代對于所研究的問題的深入的鉆研。如果統(tǒng)計學(xué)習(xí)包治百病，那么很多“ 下游”的學(xué)科也就沒有存在的必要了。事實上，開始的時候，我也是和Vision中很多人一樣，想著去做一個Graphical Model——我的導(dǎo)師指出，這樣的做法只是重復(fù)一些標(biāo)準(zhǔn)的流程，并沒有很大的價值。經(jīng)過很長時間的反復(fù)，另外一個路徑慢慢被確立下來——我們相信，一個圖像是通過大量“原子”的某種空間分布構(gòu)成的，原子群的運動形成了動態(tài)的可視過程。微觀意義下的單個原子運動，和宏觀意義下的整體分布的變換存在著深刻的聯(lián)系——這需要我們?nèi)グl(fā)掘。

在深入探索這個題目的過程中，遇到了很多很多的問題，如何描述一個一般的運動過程，如何建立一個穩(wěn)定并且廣泛適用的原子表達，如何刻畫微觀運動和宏觀分布變換的聯(lián)系，還有很多。在這個過程中，我發(fā)現(xiàn)了兩個事情：

    * 我原有的數(shù)學(xué)基礎(chǔ)已經(jīng)遠遠不能適應(yīng)我對這些問題的深入研究。
    * 在數(shù)學(xué)中，有很多思想和工具，是非常適合解決這些問題的，只是沒有被很多的應(yīng)用科學(xué)的研究者重視。

于是，我決心開始深入數(shù)學(xué)這個浩瀚大海，希望在我再次走出來的時候，我已經(jīng)有了更強大的武器去面對這些問題的挑戰(zhàn)。

我的游歷并沒有結(jié)束，我的視野相比于這個博大精深的世界的依舊顯得非常狹窄。在這里，我只是說說，在我的眼中，數(shù)學(xué)如何一步步從初級向高級發(fā)展，更高級別的數(shù)學(xué)對于具體應(yīng)用究竟有何好處。

集合論：現(xiàn)代數(shù)學(xué)的共同基礎(chǔ)

現(xiàn)代數(shù)學(xué)有數(shù)不清的分支，但是，它們都有一個共同的基礎(chǔ)——集合論——因為它，數(shù)學(xué)這個龐大的家族有個共同的語言。集合論中有一些最基本的概念：集合 (set)，關(guān)系(relation)，函數(shù)(function)，等價(equivalence)，是在其它數(shù)學(xué)分支的語言中幾乎必然存在的。對于這些簡單概念的理解，是進一步學(xué)些別的數(shù)學(xué)的基礎(chǔ)。我相信，理工科大學(xué)生對于這些都不會陌生。

不過，有一個很重要的東西就不見得那么家喻戶曉了——那就是“選擇公理”(Axiom of Choice)。這個公理的意思是“任意的一群非空集合，一定可以從每個集合中各拿出一個元素。”——似乎是顯然得不能再顯然的命題。不過，這個貌似平常的公理卻能演繹出一些比較奇怪的結(jié)論，比如巴拿赫-塔斯基分球定理——“一個球，能分成五個部分，對它們進行一系列剛性變換（平移旋轉(zhuǎn)）后，能組合成兩個一樣大小的球”。正因為這些完全有悖常識的結(jié)論，導(dǎo)致數(shù)學(xué)界曾經(jīng)在相當(dāng)長時間里對于是否接受它有著激烈爭論。現(xiàn)在，主流數(shù)學(xué)家對于它應(yīng)該是基本接受的，因為很多數(shù)學(xué)分支的重要定理都依賴于它。在我們后面要回說到的學(xué)科里面，下面的定理依賴于選擇公理：

   1. 拓撲學(xué)：Baire Category Theorem
   2. 實分析（測度理論）：Lebesgue 不可測集的存在性
   3. 泛函分析四個主要定理：Hahn-Banach Extension Theorem, Banach-Steinhaus Theorem (Uniform boundedness principle), Open Mapping Theorem, Closed Graph Theorem

在集合論的基礎(chǔ)上，現(xiàn)代數(shù)學(xué)有兩大家族：分析(Analysis)和代數(shù)(Algebra)。至于其它的，比如幾何和概率論，在古典數(shù)學(xué)時代，它們是和代數(shù)并列的，但是它們的現(xiàn)代版本則基本是建立在分析或者代數(shù)的基礎(chǔ)上，因此從現(xiàn)代意義說，它們和分析與代數(shù)并不是平行的關(guān)系。

分析：在極限基礎(chǔ)上建立的宏偉大廈
微積分：分析的古典時代——從牛頓到柯西

先說說分析(Analysis)吧，它是從微積分(Caculus)發(fā)展起來的——這也是有些微積分教材名字叫“數(shù)學(xué)分析”的原因。不過，分析的范疇遠不只是這些，我們在大學(xué)一年級學(xué)習(xí)的微積分只能算是對古典分析的入門。分析研究的對象很多，包括導(dǎo)數(shù)(derivatives)，積分(integral)，微分方程(differential equation)，還有級數(shù)(infinite series)——這些基本的概念，在初等的微積分里面都有介紹。如果說有一個思想貫穿其中，那就是極限——這是整個分析（不僅僅是微積分）的靈魂。

一個很多人都聽說過的故事，就是牛頓(Newton)和萊布尼茨(Leibniz)關(guān)于微積分發(fā)明權(quán)的爭論。事實上，在他們的時代，很多微積分的工具開始運用在科學(xué)和工程之中，但是，微積分的基礎(chǔ)并沒有真正建立。那個長時間一直解釋不清楚的“無窮小量”的幽靈，困擾了數(shù)學(xué)界一百多年的時間——這就是“第二次數(shù)學(xué)危機”。直到柯西用數(shù)列極限的觀點重新建立了微積分的基本概念，這門學(xué)科才開始有了一個比較堅實的基礎(chǔ)。直到今天，整個分析的大廈還是建立在極限的基石之上。

柯西(Cauchy)為分析的發(fā)展提供了一種嚴密的語言，但是他并沒有解決微積分的全部問題。在19世紀的時候，分析的世界仍然有著一些揮之不去的烏云。而其中最重要的一個沒有解決的是“函數(shù)是否可積的問題”。我們在現(xiàn)在的微積分課本中學(xué)到的那種通過“無限分割區(qū)間，取矩陣面積和的極限”的積分，是大約在1850年由黎曼(Riemann)提出的，叫做黎曼積分。但是，什么函數(shù)存在黎曼積分呢（黎曼可積）？數(shù)學(xué)家們很早就證明了，定義在閉區(qū)間內(nèi)的連續(xù)函數(shù)是黎曼可積的。可是，這樣的結(jié)果并不令人滿意，工程師們需要對分段連續(xù)函數(shù)的函數(shù)積分。
實分析：在實數(shù)理論和測度理論上建立起現(xiàn)代分析

在 19世紀中后期，不連續(xù)函數(shù)的可積性問題一直是分析的重要課題。對于定義在閉區(qū)間上的黎曼積分的研究發(fā)現(xiàn)，可積性的關(guān)鍵在于“不連續(xù)的點足夠少”。只有有限處不連續(xù)的函數(shù)是可積的，可是很多有數(shù)學(xué)家們構(gòu)造出很多在無限處不連續(xù)的可積函數(shù)。顯然，在衡量點集大小的時候，有限和無限并不是一種合適的標(biāo)準(zhǔn)。在探討“點集大小”這個問題的過程中，數(shù)學(xué)家發(fā)現(xiàn)實數(shù)軸——這個他們曾經(jīng)以為已經(jīng)充分理解的東西——有著許多他們沒有想到的特性。在極限思想的支持下，實數(shù)理論在這個時候被建立起來，它的標(biāo)志是對實數(shù)完備性進行刻畫的幾條等價的定理（確界定理，區(qū)間套定理，柯西收斂定理，Bolzano- Weierstrass Theorem和Heine-Borel Theorem等等）——這些定理明確表達出實數(shù)和有理數(shù)的根本區(qū)別：完備性（很不嚴格的說，就是對極限運算封閉）。隨著對實數(shù)認識的深入，如何測量“點集大小”的問題也取得了突破，勒貝格創(chuàng)造性地把關(guān)于集合的代數(shù)，和Outer content（就是“外測度”的一個雛形）的概念結(jié)合起來，建立了測度理論(Measure Theory)，并且進一步建立了以測度為基礎(chǔ)的積分——勒貝格(Lebesgue Integral)。在這個新的積分概念的支持下，可積性問題變得一目了然。

上面說到的實數(shù)理論，測度理論和勒貝格積分，構(gòu)成了我們現(xiàn)在稱為實分析(Real Analysis)的數(shù)學(xué)分支，有些書也叫實變函數(shù)論。對于應(yīng)用科學(xué)來說，實分析似乎沒有古典微積分那么“實用”——很難直接基于它得到什么算法。而且，它要解決的某些“難題”——比如處處不連續(xù)的函數(shù)，或者處處連續(xù)而處處不可微的函數(shù)——在工程師的眼中，并不現(xiàn)實。但是，我認為，它并不是一種純數(shù)學(xué)概念游戲，它的現(xiàn)實意義在于為許多現(xiàn)代的應(yīng)用數(shù)學(xué)分支提供堅實的基礎(chǔ)。下面，我僅僅列舉幾條它的用處：

   1. 黎曼可積的函數(shù)空間不是完備的，但是勒貝格可積的函數(shù)空間是完備的。簡單的說，一個黎曼可積的函數(shù)列收斂到的那個函數(shù)不一定是黎曼可積的，但是勒貝格可積的函數(shù)列必定收斂到一個勒貝格可積的函數(shù)。在泛函分析，還有逼近理論中，經(jīng)常需要討論“函數(shù)的極限”，或者“函數(shù)的級數(shù)”，如果用黎曼積分的概念，這種討論幾乎不可想像。我們有時看一些paper中提到Lp函數(shù)空間，就是基于勒貝格積分。
   2. 勒貝格積分是傅立葉變換（這東西在工程中到處都是）的基礎(chǔ)。很多關(guān)于信號處理的初等教材，可能繞過了勒貝格積分，直接講點面對實用的東西而不談它的數(shù)學(xué)基礎(chǔ)，但是，對于深層次的研究問題——特別是希望在理論中能做一些工作——這并不是總能繞過去。
   3. 在下面，我們還會看到，測度理論是現(xiàn)代概率論的基礎(chǔ)。

拓撲學(xué)：分析從實數(shù)軸推廣到一般空間——現(xiàn)代分析的抽象基礎(chǔ)

隨著實數(shù)理論的建立，大家開始把極限和連續(xù)推廣到更一般的地方的分析。事實上，很多基于實數(shù)的概念和定理并不是實數(shù)特有的。很多特性可以抽象出來，推廣到更一般的空間里面。對于實數(shù)軸的推廣，促成了點集拓撲學(xué)(Point-set Topology)的建立。很多原來只存在于實數(shù)中的概念，被提取出來，進行一般性的討論。在拓撲學(xué)里面，有4個C構(gòu)成了它的核心：

   1. Closed set（閉集合）。在現(xiàn)代的拓撲學(xué)的公理化體系中，開集和閉集是最基本的概念。一切從此引申。這兩個概念是開區(qū)間和閉區(qū)間的推廣，它們的根本地位，并不是一開始就被認識到的。經(jīng)過相當(dāng)長的時間，人們才認識到：開集的概念是連續(xù)性的基礎(chǔ)，而閉集對極限運算封閉——而極限正是分析的根基。
   2. Continuous function （連續(xù)函數(shù)）。連續(xù)函數(shù)在微積分里面有個用epsilon-delta語言給出的定義，在拓撲學(xué)中它的定義是“開集的原像是開集的函數(shù)”。第二個定義和第一個是等價的，只是用更抽象的語言進行了改寫。我個人認為，它的第三個（等價）定義才從根本上揭示連續(xù)函數(shù)的本質(zhì)——“連續(xù)函數(shù)是保持極限運算的函數(shù)” ——比如y是數(shù)列x1, x2, x3, … 的極限，那么如果 f 是連續(xù)函數(shù)，那么 f(y) 就是 f(x1), f(x2), f(x3), …的極限。連續(xù)函數(shù)的重要性，可以從別的分支學(xué)科中進行類比。比如群論中，基礎(chǔ)的運算是“乘法”，對于群，最重要的映射叫“同態(tài)映射”——保持“乘法”的映射。在分析中，基礎(chǔ)運算是“極限”，因此連續(xù)函數(shù)在分析中的地位，和同態(tài)映射在代數(shù)中的地位是相當(dāng)?shù)摹?br>   3. Connected set （連通集合）。比它略為窄一點的概念叫(Path connected)，就是集合中任意兩點都存在連續(xù)路徑相連——可能是一般人理解的概念。一般意義下的連通概念稍微抽象一些。在我看來，連通性有兩個重要的用場：一個是用于證明一般的中值定理(Intermediate Value Theorem)，還有就是代數(shù)拓撲，拓撲群論和李群論中討論根本群(Fundamental Group)的階。
   4. Compact set（緊集）。Compactness似乎在初等微積分里面沒有專門出現(xiàn)，不過有幾條實數(shù)上的定理和它其實是有關(guān)系的。比如，“有界數(shù)列必然存在收斂子列”——用compactness的語言來說就是——“實數(shù)空間中有界閉集是緊的”。它在拓撲學(xué)中的一般定義是一個聽上去比較抽象的東西——“緊集的任意開覆蓋存在有限子覆蓋”。這個定義在討論拓撲學(xué)的定理時很方便，它在很多時候能幫助實現(xiàn)從無限到有限的轉(zhuǎn)換。對于分析來說，用得更多的是它的另一種形式 ——“緊集中的數(shù)列必存在收斂子列”——它體現(xiàn)了分析中最重要的“極限”。Compactness在現(xiàn)代分析中運用極廣，無法盡述。微積分中的兩個重要定理：極值定理(Extreme Value Theory)，和一致收斂定理(Uniform Convergence Theorem)就可以借助它推廣到一般的形式。

從某種意義上說，點集拓撲學(xué)可以看成是關(guān)于“極限”的一般理論，它抽象于實數(shù)理論，它的概念成為幾乎所有現(xiàn)代分析學(xué)科的通用語言，也是整個現(xiàn)代分析的根基所在。
微分幾何：流形上的分析——在拓撲空間上引入微分結(jié)構(gòu)

拓撲學(xué)把極限的概念推廣到一般的拓撲空間，但這不是故事的結(jié)束，而僅僅是開始。在微積分里面，極限之后我們有微分，求導(dǎo)，積分。這些東西也可以推廣到拓撲空間，在拓撲學(xué)的基礎(chǔ)上建立起來——這就是微分幾何。從教學(xué)上說，微分幾何的教材，有兩種不同的類型，一種是建立在古典微機分的基礎(chǔ)上的“古典微分幾何”，主要是關(guān)于二維和三維空間中的一些幾何量的計算，比如曲率。還有一種是建立在現(xiàn)代拓撲學(xué)的基礎(chǔ)上，這里姑且稱為“現(xiàn)代微分幾何”——它的核心概念就是“流形”(manifold)——就是在拓撲空間的基礎(chǔ)上加了一套可以進行微分運算的結(jié)構(gòu)。現(xiàn)代微分幾何是一門非常豐富的學(xué)科。比如一般流形上的微分的定義就比傳統(tǒng)的微分豐富，我自己就見過三種從不同角度給出的等價定義——這一方面讓事情變得復(fù)雜一些，但是另外一個方面它給了同一個概念的不同理解，往往在解決問題時會引出不同的思路。除了推廣微積分的概念以外，還引入了很多新概念：tangent space, cotangent space, push forward, pull back, fibre bundle, flow, immersion, submersion 等等。

近些年，流形在machine learning似乎相當(dāng)時髦。但是，坦率地說，要弄懂一些基本的流形算法，甚至“創(chuàng)造”一些流形算法，并不需要多少微分幾何的基礎(chǔ)。對我的研究來說，微分幾何最重要的應(yīng)用就是建立在它之上的另外一個分支：李群和李代數(shù)——這是數(shù)學(xué)中兩大家族分析和代數(shù)的一個漂亮的聯(lián)姻。分析和代數(shù)的另外一處重要的結(jié)合則是泛函分析，以及在其基礎(chǔ)上的調(diào)和分析。

代數(shù)：一個抽象的世界
關(guān)于抽象代數(shù)

回過頭來，再說說另一個大家族——代數(shù)。

如果說古典微積分是分析的入門，那么現(xiàn)代代數(shù)的入門點則是兩個部分：線性代數(shù)(linear algebra)和基礎(chǔ)的抽象代數(shù)(abstract algebra)——據(jù)說國內(nèi)一些教材稱之為近世代數(shù)。

代數(shù)——名稱上研究的似乎是數(shù)，在我看來，主要研究的是運算規(guī)則。一門代數(shù)，其實都是從某種具體的運算體系中抽象出一些基本規(guī)則，建立一個公理體系，然后在這基礎(chǔ)上進行研究。一個集合再加上一套運算規(guī)則，就構(gòu)成一個代數(shù)結(jié)構(gòu)。在主要的代數(shù)結(jié)構(gòu)中，最簡單的是群(Group)——它只有一種符合結(jié)合率的可逆運算，通常叫“乘法”。如果，這種運算也符合交換率，那么就叫阿貝爾群(Abelian Group)。如果有兩種運算，一種叫加法，滿足交換率和結(jié)合率，一種叫乘法，滿足結(jié)合率，它們之間滿足分配率，這種豐富一點的結(jié)構(gòu)叫做環(huán)(Ring)，如果環(huán)上的乘法滿足交換率，就叫可交換環(huán)(Commutative Ring)。如果，一個環(huán)的加法和乘法具有了所有的良好性質(zhì)，那么就成為一個域(Field)。基于域，我們可以建立一種新的結(jié)構(gòu)，能進行加法和數(shù)乘，就構(gòu)成了線性代數(shù)(Linear algebra)。

代數(shù)的好處在于，它只關(guān)心運算規(guī)則的演繹，而不管參與運算的對象。只要定義恰當(dāng)，完全可以讓一只貓乘一只狗得到一頭豬:-)。基于抽象運算規(guī)則得到的所有定理完全可以運用于上面說的貓狗乘法。當(dāng)然，在實際運用中，我們還是希望用它干點有意義的事情。學(xué)過抽象代數(shù)的都知道，基于幾條最簡單的規(guī)則，比如結(jié)合律，就能導(dǎo)出非常多的重要結(jié)論——這些結(jié)論可以應(yīng)用到一切滿足這些簡單規(guī)則的地方—— 這是代數(shù)的威力所在，我們不再需要為每一個具體領(lǐng)域重新建立這么多的定理。

抽象代數(shù)有在一些基礎(chǔ)定理的基礎(chǔ)上，進一步的研究往往分為兩個流派：研究有限的離散代數(shù)結(jié)構(gòu)（比如有限群和有限域），這部分內(nèi)容通常用于數(shù)論，編碼，和整數(shù)方程這些地方；另外一個流派是研究連續(xù)的代數(shù)結(jié)構(gòu)，通常和拓撲與分析聯(lián)系在一起（比如拓撲群，李群）。我在學(xué)習(xí)中的focus主要是后者。
線性代數(shù)：“線性”的基礎(chǔ)地位

對于做Learning, vision, optimization或者statistics的人來說，接觸最多的莫過于線性代數(shù)——這也是我們在大學(xué)低年級就開始學(xué)習(xí)的。線性代數(shù)，包括建立在它基礎(chǔ)上的各種學(xué)科，最核心的兩個概念是向量空間和線性變換。線性變換在線性代數(shù)中的地位，和連續(xù)函數(shù)在分析中的地位，或者同態(tài)映射在群論中的地位是一樣的 ——它是保持基礎(chǔ)運算（加法和數(shù)乘）的映射。

在learning中有這樣的一種傾向——鄙視線性算法，標(biāo)榜非線性。也許在很多場合下面，我們需要非線性來描述復(fù)雜的現(xiàn)實世界，但是無論什么時候，線性都是具有根本地位的。沒有線性的基礎(chǔ)，就不可能存在所謂的非線性推廣。我們常用的非線性化的方法包括流形和kernelization，這兩者都需要在某個階段回歸線性。流形需要在每個局部建立和線性空間的映射，通過把許多局部線性空間連接起來形成非線性；而kernerlization則是通過置換內(nèi)積結(jié)構(gòu)把原線性空間“非線性”地映射到另外一個線性空間，再進行線性空間中所能進行的操作。而在分析領(lǐng)域，線性的運算更是無處不在，微分，積分，傅立葉變換，拉普拉斯變換，還有統(tǒng)計中的均值，通通都是線性的。
泛函分析：從有限維向無限維邁進

在大學(xué)中學(xué)習(xí)的線性代數(shù)，它的簡單主要因為它是在有限維空間進行的，因為有限，我們無須借助于太多的分析手段。但是，有限維空間并不能有效地表達我們的世界 ——最重要的，函數(shù)構(gòu)成了線性空間，可是它是無限維的。對函數(shù)進行的最重要的運算都在無限維空間進行，比如傅立葉變換和小波分析。這表明了，為了研究函數(shù)（或者說連續(xù)信號），我們需要打破有限維空間的束縛，走入無限維的函數(shù)空間——這里面的第一步，就是泛函分析。

泛函分析 (Functional Analysis)是研究的是一般的線性空間，包括有限維和無限維，但是很多東西在有限維下顯得很trivial，真正的困難往往在無限維的時候出現(xiàn)。在泛函分析中，空間中的元素還是叫向量，但是線性變換通常會叫作“算子”(operator)。除了加法和數(shù)乘，這里進一步加入了一些運算，比如加入范數(shù)去表達“向量的長度”或者“元素的距離”，這樣的空間叫做“賦范線性空間”(normed space)，再進一步的，可以加入內(nèi)積運算，這樣的空間叫“內(nèi)積空間”(Inner product space)。

大家發(fā)現(xiàn)，當(dāng)進入無限維的時間時，很多老的觀念不再適用了，一切都需要重新審視。

   1. 所有的有限維空間都是完備的（柯西序列收斂），很多無限維空間卻是不完備的（比如閉區(qū)間上的連續(xù)函數(shù)）。在這里，完備的空間有特殊的名稱：完備的賦范空間叫巴拿赫空間(Banach space)，完備的內(nèi)積空間叫希爾伯特空間(Hilbert space)。
   2. 在有限維空間中空間和它的對偶空間的是完全同構(gòu)的，而在無限維空間中，它們存在微妙的差別。
   3. 在有限維空間中，所有線性變換（矩陣）都是有界變換，而在無限維，很多算子是無界的(unbounded)，最重要的一個例子是給函數(shù)求導(dǎo)。
   4. 在有限維空間中，一切有界閉集都是緊的，比如單位球。而在所有的無限維空間中，單位球都不是緊的——也就是說，可以在單位球內(nèi)撒入無限個點，而不出現(xiàn)一個極限點。
   5. 在有限維空間中，線性變換（矩陣）的譜相當(dāng)于全部的特征值，在無限維空間中，算子的譜的結(jié)構(gòu)比這個復(fù)雜得多，除了特征值組成的點譜(point spectrum)，還有approximate point spectrum和residual spectrum。雖然復(fù)雜，但是，也更為有趣。由此形成了一個相當(dāng)豐富的分支——算子譜論(Spectrum theory)。
   6. 在有限維空間中，任何一點對任何一個子空間總存在投影，而在無限維空間中，這就不一定了，具有這種良好特性的子空間有個專門的名稱切比雪夫空間 (Chebyshev space)。這個概念是現(xiàn)代逼近理論的基礎(chǔ)(approximation theory)。函數(shù)空間的逼近理論在Learning中應(yīng)該有著非常重要的作用，但是現(xiàn)在看到的運用現(xiàn)代逼近理論的文章并不多。

繼續(xù)往前：巴拿赫代數(shù)，調(diào)和分析，和李代數(shù)

基本的泛函分析繼續(xù)往前走，有兩個重要的方向。第一個是巴拿赫代數(shù)(Banach Algebra)，它就是在巴拿赫空間（完備的內(nèi)積空間）的基礎(chǔ)上引入乘法（這不同于數(shù)乘）。比如矩陣——它除了加法和數(shù)乘，還能做乘法——這就構(gòu)成了一個巴拿赫代數(shù)。除此以外，值域完備的有界算子，平方可積函數(shù)，都能構(gòu)成巴拿赫代數(shù)。巴拿赫代數(shù)是泛函分析的抽象，很多對于有界算子導(dǎo)出的結(jié)論，還有算子譜論中的許多定理，它們不僅僅對算子適用，它們其實可以從一般的巴拿赫代數(shù)中得到，并且應(yīng)用在算子以外的地方。巴拿赫代數(shù)讓你站在更高的高度看待泛函分析中的結(jié)論，但是，我對它在實際問題中能比泛函分析能多帶來什么東西還有待思考。

最能把泛函分析和實際問題在一起的另一個重要方向是調(diào)和分析(Harmonic Analysis)。我在這里列舉它的兩個個子領(lǐng)域，傅立葉分析和小波分析，我想這已經(jīng)能說明它的實際價值。它研究的最核心的問題就是怎么用基函數(shù)去逼近和構(gòu)造一個函數(shù)。它研究的是函數(shù)空間的問題，不可避免的必須以泛函分析為基礎(chǔ)。除了傅立葉和小波，調(diào)和分析還研究一些很有用的函數(shù)空間，比如Hardy space，Sobolev space，這些空間有很多很好的性質(zhì)，在工程中和物理學(xué)中都有很重要的應(yīng)用。對于vision來說，調(diào)和分析在信號的表達，圖像的構(gòu)造，都是非常有用的工具。

當(dāng)分析和線性代數(shù)走在一起，產(chǎn)生了泛函分析和調(diào)和分析；當(dāng)分析和群論走在一起，我們就有了李群(Lie Group)和李代數(shù)(Lie Algebra)。它們給連續(xù)群上的元素賦予了代數(shù)結(jié)構(gòu)。我一直認為這是一門非常漂亮的數(shù)學(xué)：在一個體系中，拓撲，微分和代數(shù)走到了一起。在一定條件下，通過李群和李代數(shù)的聯(lián)系，它讓幾何變換的結(jié)合變成了線性運算，讓子群化為線性子空間，這樣就為Learning中許多重要的模型和算法的引入到對幾何運動的建模創(chuàng)造了必要的條件。因此，我們相信李群和李代數(shù)對于vision有著重要意義，只不過學(xué)習(xí)它的道路可能會很艱辛，在它之前需要學(xué)習(xí)很多別的數(shù)學(xué)。

現(xiàn)代概率論：在現(xiàn)代分析基礎(chǔ)上再生　

最后，再簡單說說很多Learning的研究者特別關(guān)心的數(shù)學(xué)分支：概率論。自從Kolmogorov在上世紀30年代把測度引入概率論以來，測度理論就成為現(xiàn)代概率論的基礎(chǔ)。在這里，概率定義為測度，隨機變量定義為可測函數(shù)，條件隨機變量定義為可測函數(shù)在某個函數(shù)空間的投影，均值則是可測函數(shù)對于概率測度的積分。值得注意的是，很多的現(xiàn)代觀點，開始以泛函分析的思路看待概率論的基礎(chǔ)概念，隨機變量構(gòu)成了一個向量空間，而帶符號概率測度則構(gòu)成了它的對偶空間，其中一方施加于對方就形成均值。角度雖然不一樣，不過這兩種方式殊途同歸，形成的基礎(chǔ)是等價的。

在現(xiàn)代概率論的基礎(chǔ)上，許多傳統(tǒng)的分支得到了極大豐富，最有代表性的包括鞅論(Martingale)——由研究賭博引發(fā)的理論，現(xiàn)在主要用于金融（這里可以看出賭博和金融的理論聯(lián)系，:-P），布朗運動(Brownian Motion)——連續(xù)隨機過程的基礎(chǔ)，以及在此基礎(chǔ)上建立的隨機分析(Stochastic Calculus)，包括隨機積分（對隨機過程的路徑進行積分，其中比較有代表性的叫伊藤積分(Ito Integral)），和隨機微分方程。對于連續(xù)幾何運用建立概率模型以及對分布的變換的研究離不開這些方面的知識。

終于寫完了——也謝謝你把這么長的文章看完，希望其中的一些內(nèi)容對你是有幫助的。

bneliao 2009-03-09 00:00 發(fā)表評論

zz二十世紀的數(shù)學(xué) Michael Atiyah

bneliao — Sun, 07 Sep 2008 15:07:00 GMT

http://jiayi666666.blog.163.com/blog/static/1384481520087761228975/
二十世紀的數(shù)學(xué) Michael Atiyah

謝謝邀請我來這里參加這個活動．當(dāng)然，如果有人想談?wù)撘粋€世紀的終結(jié)以及下一個世紀的開始，那么他有兩個具有相當(dāng)難度的選擇：一個是回顧過去百年的數(shù)學(xué)；另一個是對未來百年數(shù)學(xué)發(fā)展的預(yù)測，我選擇了前面這個比較困難的任務(wù)，任何人都可以預(yù)測未來而且我們并不能判定是對還是錯．然而對過去的任何評述，每個人都可以提出異議．

　我在這里所講的是我個人的觀點．這個報告不可能包含所有內(nèi)容，特別是，有一些重要的內(nèi)容我不準(zhǔn)備涉及，一部分是因為我不是那些方面的專家，一部分也是出于它們已經(jīng)在其他地方被評述過了.例如，我不會去談?wù)撃切┌l(fā)生在邏輯與計算領(lǐng)域內(nèi)的著名事件，這些事件往往是與像Hilbert，Godel，Turing 這些偉大的名字相關(guān)的，除了數(shù)學(xué)在基礎(chǔ)物理中的應(yīng)用之外，我也不會談?wù)撎鄶?shù)學(xué)的其他應(yīng)用，這是因為數(shù)學(xué)的應(yīng)用太廣泛了，而且這需要專門的論述．每一個方面都需要一個專門的報告．也許大家在這次會議的其他報告中會聽到很多關(guān)于這些內(nèi)容的演講．另外，試著羅列一些定理，甚至是列出在過去一百年的著名數(shù)學(xué)家的名字也是毫無意義的，那簡直是在做枯燥的練習(xí)．所以，代替它們的是，我試著選擇一些我認為在很多方面都是很重要的主題來討論并且強調(diào)圍繞這些主題所發(fā)生的事情．

　　
　　首先我有一個一般性的說明．世紀是一個大約的數(shù)字概念．我們不會真地認為在過整整一百年的時候，有些事情會突然停下來，再重新開始，所以當(dāng)我描述二十世紀的數(shù)學(xué)時，有些內(nèi)容實際上可能是跨世紀的，如果某件事件發(fā)生在十九世紀九十年代，并持續(xù)到二十世紀初，我將不去計較這種時間方面的細節(jié)．我所做的就象一個天文學(xué)家，工作在一個近似的數(shù)字環(huán)境中．實際上，許多東西始于十九世紀，只不過在二十世紀才碩果累累．

　　

　　這個報告的難點之一是很難把我們自己放回到1900年時作為一位數(shù)學(xué)家的位置上，這是因為上個世紀的數(shù)學(xué)有非常多的內(nèi)容已經(jīng)被我們的文化和我們自己吸收掉了．難以想象人們不用我們的術(shù)語來思考的那個時代是什么樣子的．實際上，如果現(xiàn)在有人在數(shù)學(xué)上有一個真正重要的發(fā)現(xiàn)，其后他也一定會與之一起被忽略掉了！他會完全地被融入到背景之中，于是為了能夠回顧過去，我們必須努力去想象在不同時代，人們用不同方式思考問題時的情景．

　　從局部到整體

　　

　　作為開始，我準(zhǔn)備列一些主題并且圍繞它們來討論．我談?wù)摰牡谝粋€主題概括地講，就是被大家稱為從局部到整體的轉(zhuǎn)變．在古典時期，人們大體上已經(jīng)研究了在小范圍內(nèi)，使用局部坐標(biāo)等等來研究事物．在這個世紀，重點已經(jīng)轉(zhuǎn)移到試圖了解事物整體和大范圍的性質(zhì)．由于整體性質(zhì)更加難以研究，所以大多只能有定性的結(jié)果，這時拓撲的思想就變得非常重要了．正是Poincaré，他不僅為拓撲學(xué)發(fā)展作出先驅(qū)性的貢獻，而且也預(yù)言拓撲學(xué)將成為二十世紀數(shù)學(xué)的一個重要的組成部分，順便讓我提一下，給出一系列著名問題的Hilbert并沒有意識到這一點．拓撲學(xué)很難在他的那些問題中找到具體體現(xiàn)．但是對Poincaré而言，他相當(dāng)清楚地看出拓撲學(xué)將成為一個重要的內(nèi)容．

　　

　　讓我試著列一些領(lǐng)域，然后大家就能知道我在想什么了．例如，考慮一下復(fù)分析（也被稱為“函數(shù)論”），這在十九世紀是數(shù)學(xué)的中心，也是象 Weierstrass這樣偉大人物工作的中心．對于他們而言，一個函數(shù)就是一個復(fù)變量的函數(shù);對于Weierstrass而言，一個函數(shù)就是一個冪級數(shù)．它們是一些可以用于寫下來，并且可以明確描繪的東西或者是一些公式．函數(shù)是一些公式:它們是明確可以用顯式寫下來的．然而接下來 Abe1，Riemann和其后許多人的工作使我們遠離了這些，以至于函數(shù)變得可以不用明確的公式來定義，而更多地是通過它們的整體性質(zhì)來定義：通過它們的奇異點的分布，通過它們的定義域位置，通過它們?nèi)≈捣秶@些整體性質(zhì)正是一個特定函數(shù)與眾不同的特性．局部展開只是看待它們的一種方式．

　　

　　一個類似的事情發(fā)生在微分方程中，最初，解一個微分方程，人們需要尋找一個明確的局部解！是一些可以寫下來的東西．隨著事物的發(fā)展，解不必是一個顯函數(shù)，人們不一定必須用好的公式來描述它們．解的奇異性是真正決定其整體性質(zhì)的東西．與發(fā)生在復(fù)分析中的一切相比，這種精神是多么的類似，只不過在細節(jié)上有些不同罷了．

　　

　　在微分幾何中，Gauss和其他人的經(jīng)典工作描述了小片的空間，小塊的曲率以及用來描述局部幾何的局部方程．只要人們想要了解曲面的整體圖象以及伴隨它們的拓撲時，從這些經(jīng)典結(jié)果到大范圍的轉(zhuǎn)變就是很自然的了．當(dāng)人們從小范圍到大范圍時，最有意義的性質(zhì)就是拓撲的性質(zhì)．

　　

　　數(shù)論也有一個類似的發(fā)展，盡管它并不是很明顯地適用于這一框架．?dāng)?shù)論學(xué)家們是這樣來區(qū)分他們稱之為“局部理論”和“整體理論”的：前者是當(dāng)他們討論一個單個的素數(shù)，一次一個素數(shù)，以及有限個素數(shù)時；后者是當(dāng)他們同時討論全部素數(shù)時．這種素數(shù)和點之間，局部和整體之間的類似性在數(shù)論發(fā)展過程中起了很重要的作用，并且那些在拓撲學(xué)發(fā)展中產(chǎn)生的思想深深地影響了數(shù)論．

　　

　　當(dāng)然這種情況也發(fā)生在物理學(xué)中，經(jīng)典物理涉及局部理論，這時我們寫下可以完全描述小范圍性質(zhì)的微分方程，接下來我們就必須研究一個物理系統(tǒng)的大范圍性質(zhì)．物理學(xué)涉及的全部內(nèi)容就是當(dāng)我們從小范圍出發(fā)時，我們可以知道在大范圍內(nèi)正在發(fā)生什么，可以預(yù)計將要發(fā)生什么，并且沿著這些結(jié)論前進．

　　

　　維數(shù)的增加

　　

　　我的第二個主題有些不同，我稱之為維數(shù)的增加．我們再次從經(jīng)典的復(fù)變函數(shù)理論開始：經(jīng)典復(fù)變函數(shù)論主要是詳細討論一個復(fù)變量理論并加以精煉．推廣到兩個或者更多個變量基本上發(fā)生在本世紀，并且是發(fā)生在有新現(xiàn)象出現(xiàn)的領(lǐng)域內(nèi)．不是所有的現(xiàn)象都與一個變量的情形相同，這里有完全新的特性出現(xiàn)，并且n個變量的理論的研究越來越占有統(tǒng)治地位，這也是本世紀主要成就之一．

　　

　　另一方面，過去的微分幾何學(xué)家主要研究曲線和曲面，我們現(xiàn)在研究n維流形的幾何,大家仔細想一想，就能意識到這是一個重要的轉(zhuǎn)變．在早期，曲線和曲面是那些人們能真正在空間里看到的東西．而高維則有一點點虛構(gòu)的成分，在其中人們可以通過數(shù)學(xué)思維來想象,但當(dāng)時人們也許沒有認真對待它們．認真對待它們并且用同樣重視程度來研究它們的這種思想實際上是二十世紀的產(chǎn)物．同樣地，也沒有明顯的證據(jù)表明我們十九世紀的先驅(qū)者們思考過函數(shù)個數(shù)的增加，研究不單單一個而是幾個函數(shù)，或者是向量值函數(shù)(vector-valued function)．所以我們看到這里有一個獨立和非獨立變量個數(shù)增加的問題．

　　

　　線性代數(shù)總是涉及多個變量，但它的維數(shù)的增加更具有戲劇性，它的增加是從有限維到無窮維，從線性空間到有無窮個變量的Hilbert空間．當(dāng)然這就涉及到了分析,在多個變量的函數(shù)之后，我們就有函數(shù)的函數(shù)，即泛函．它們是函數(shù)空間上的函數(shù)．它們本質(zhì)上有無窮多個變量，這就是我們稱為變分學(xué)的理論．一個類似的事情發(fā)生在一般（非線性）函數(shù)理論的發(fā)展中．這是一個古老的課題，但真正取得卓越的成果是在二十世紀．這就是我談的第二個主題．

　　

　　

　　從交換到非交換

　　

　　第三個主題是從交換到非交換的轉(zhuǎn)變．這可能是二十世紀數(shù)學(xué)，特別是代數(shù)學(xué)的最主要的特征之一．代數(shù)的非交換方面已經(jīng)極其重要，當(dāng)然，它源自于十九世紀．它有幾個不同的起源．Hamilton在四元數(shù)方面的工作可能是最令人驚嘆的，并且有巨大的影響，實際上這是受處理物理問題時所采用的思想所啟發(fā)．還有 Grassmann在外代數(shù)方面的工作，這是另一個代數(shù)體系，現(xiàn)在已經(jīng)被融入我們的微分形式理論中．當(dāng)然，還有Cayley以線性代數(shù)為基礎(chǔ)的矩陣方面的工作和Galois在群論方面的工作等．

　　

　　所有這些都是以不同的方式形成了把非交換乘法引入代數(shù)理論的基石，我形象地把它們說成是二十世紀代數(shù)機器賴以生存的“面包和黃油”．我們現(xiàn)在可以不去思考這些，但在十九世紀，以上所有例子都以各自不同的方式取得了重大的突破，當(dāng)然，這些思想在不同的領(lǐng)域內(nèi)得到了驚人的發(fā)展．矩陣和非交換乘法在物理中的應(yīng)用產(chǎn)生了量子理論．Heisenberg對易關(guān)系是非交換代數(shù)在物理中的一個最重要的應(yīng)用例子，以至后來被von Neumann推廣到他的算子代數(shù)理論中．

　　

　　群論也是在二十世紀占重要位量的理論，我稍后再回來談它．

　　

　　

　　從線性到非線性

　　

　　我的下一個主題是從線性到非線性的轉(zhuǎn)變．古典數(shù)學(xué)的大部分或者基本上是線性的，或者即使不是很精確的線性，也是那種可以通過某些擾動展開來研究的近似線性，真正的非線性現(xiàn)象的處理是非常困難的，并且只是在本世紀，才在很大的范圍內(nèi)對其進行了真正的研究．

　　

　　我們從幾何開始談起：Euclid幾何，平面的幾何，空間的幾何，直線的幾何，所有這一切都是線性的．而從非歐幾何的各個不同階段到Riemann的更一般的幾何，所討論的基本上是非線性的．在微分方程中，真正關(guān)于非線性現(xiàn)象的研究已經(jīng)處理了眾多我們通過經(jīng)典方法所看不到的新現(xiàn)象．在這里我只舉兩個例子，孤立子和混沌，這是微分方程理論兩個非常不同的方面，在本世紀已經(jīng)成為極度重要和非常著名的研究課題了．它們代表不同的極端．孤立子代表非線性微分方程的無法預(yù)料的有組織的行為，而混沌代表的是無法預(yù)料的無組織的行為(disorganized behavior)．這兩者出現(xiàn)在不同領(lǐng)域，都是非常有趣和重要的，但它們基本土都是非線性現(xiàn)象．我們同樣可以將關(guān)于孤立子的某些工作的早期歷史追溯到十九世紀下葉，但那只是很少的一部分．

　　

　　當(dāng)然，在物理學(xué)，Maxwell方程（電磁學(xué)的基本方程）是線性偏微分方程．與之對應(yīng)的是著名的Yang-Mills方程，它們是非線性方程并被假定用來調(diào)控與物質(zhì)結(jié)構(gòu)有關(guān)的力．這些方程之所以是非線性的，是因為Yang-Mills方程本質(zhì)上是Maxwell方程的矩陣體現(xiàn)，并且由矩陣不可交換這一事實導(dǎo)致方程中出現(xiàn)非線性項．于是在這里我們看到了一個非線性性與非交換性之間的有趣的聯(lián)系．非交換性產(chǎn)生一特殊的非線性性，這的確是很有意思和很重要的．

　　

　　

　　

　　幾何與代數(shù)

　　至此我談的是一些一般性的主題，現(xiàn)在我想談?wù)撘幌聰?shù)學(xué)中的一個二分叉現(xiàn)象，它來回搖擺卻始終伴隨著我們，這就給了我一個機會來做一些哲學(xué)上的思索和說明．我指的是幾何和代數(shù)之間的二分法，幾何和代數(shù)是數(shù)學(xué)的兩個形式支柱，并且都有悠久的歷史．幾何學(xué)可以追溯到古希臘甚至更早的時期；代數(shù)學(xué)則源于古阿拉伯人和古印度人．所以，它們都已經(jīng)成為數(shù)學(xué)的基礎(chǔ)，但它們之間有一種令人感到不太自然的關(guān)系．

　　

　　讓我首先由這個問題的歷史開始．Euc1id幾何是數(shù)學(xué)理論中最早的一個例子，直到Descartes在我們現(xiàn)在稱為的笛卡兒平面中引入代數(shù)坐標(biāo)之前，它一直是純幾何的．Descartes的做法是一種將幾何思考化為代數(shù)運算的嘗試．從代數(shù)學(xué)家們的角度來講，這當(dāng)然是對幾何學(xué)的一個重大突破或者說一次重大的沖擊，如果我們來比較Newton和Leibniz在分析方面的工作，我們會發(fā)現(xiàn)他們屬于不同的傳統(tǒng)，Newton基本上是一個幾何學(xué)家而 Le1bniz基本土是一個代數(shù)學(xué)家，這其中有著很深刻的道理．對于Newton而言，幾何學(xué)，或者是由他發(fā)展起來的微積分學(xué)，都是用來描述自然規(guī)律的數(shù)學(xué)嘗試．他關(guān)心的是在很廣泛意義下的物理，以及幾何世界中的物理．在他看來，如果有人想了解事物，他就得用物理世界的觀點來思考它，用幾何圖象的觀點來看待它．當(dāng)他發(fā)展微積分的時候，他想要發(fā)展的是微積分的一種能盡可能貼近隱藏在其后的物理內(nèi)蘊的表現(xiàn)形式．所以他用的是幾何論證，因為這樣可以與實際意義保持密切關(guān)系，另一方面，Leibniz有一個目標(biāo)，一個雄心勃勃的目標(biāo)，那就是形式化整個數(shù)學(xué)，將之變成一個龐大的代數(shù)機器．這與Newton的途徑截然不同，并且二者有很多不同的記號．正如我們所知道的，在Newton和Leibniz之間的這場大爭論中，Leibniz的記號最后得勝．我們現(xiàn)在還沿用他的記號來寫偏導(dǎo)數(shù)．Newton的精神尚在，但被人們埋葬了很長時間．

　　

　　在十九世紀末期，也就是一百年前，Poincaré和Hilbert是兩個主要人物．我在前面已經(jīng)提到過他們了，并且可以粗略地講，他們分別是 Newton和Leibniz的傳人．Poincaré的思想更多的是幾何和拓撲的精神，他用這些思想作為他的基本洞察工具．Hilbert更多的是一個形式主義者，他要的是公理化，形式化，并且要給出嚴格的，形式的描述．雖然任何一個偉大的數(shù)學(xué)家都不能輕易地被歸到哪一類中去，但是，很清楚地，他們屬于不同的傳統(tǒng)．

　　

　　當(dāng)準(zhǔn)備這個報告的時候，我想我應(yīng)該寫下我們目前這一代中能夠繼承這些傳統(tǒng)的具有代表性的人的名字．談?wù)撨€健在的人是十分困難的——誰該放在這張名單上呢？接著我又暗自思忖：有誰會介意被放在這么一張著名的名單的哪一邊呢？于是我選擇了兩個名字Arnold　Bourbaki，前者是Poincaré- Newton傳統(tǒng)的繼承人，而后者，我認為，是Hilbert最著名的接班人．Arnold毫不含糊地認為：他的力學(xué)和物理的觀點基本上是幾何的，是源自于Newton的；以為存在處于二者之間的東西，除了象Riemann（他確實跟兩者都有偏離）等少數(shù)人之外，都是一種誤解．Bourbaki努力繼續(xù) Hilbert的形式化的研究，將數(shù)學(xué)公理化和形式化推向了一個令人矚目的范圍并取得了一些成功．每一種觀點都有它的優(yōu)點，但是它們之間很難調(diào)和．

　　

　　讓我來解釋一下我自己是如何看待幾何和代數(shù)之間的不同．幾何學(xué)當(dāng)然講的是空間，這是毫無疑問的．如果我面對這間房間里的聽眾，我可以在一秒中內(nèi)或者是一微秒內(nèi)看到很多，接收到大量的信息，當(dāng)然這不是一件偶然的事件．我們大腦的構(gòu)造與視覺有著極其重要的關(guān)系．我從一些從事神經(jīng)生理學(xué)的朋友那里了解到，視覺占用了大腦皮層的百分之八十或九十．在大腦中大約有十七個中樞，每一個中樞專門用來負責(zé)視覺活動的不同部分：有些部分涉及的是垂直方向的，有些部分與水平方向有關(guān)，有些部分是關(guān)于色彩和透視的，最后有些部分涉及的是所見事物的具體含義和解說．理解并感知我們所看到的這個世界是我們?nèi)祟惏l(fā)展進化的一個非常重要的部分．因此空間直覺(spatial intuition)或者空間知覺(spatial perception)是一種非常強有力的工具，也是幾何學(xué)在數(shù)學(xué)上占有如此重要位置的原因，它不僅僅對那些明顯具有幾何性質(zhì)的事物可以使用，甚至對那些沒有明顯幾何性質(zhì)的事物也可以使用．我們努力將它們歸結(jié)為幾何形式，因為這樣可以讓我們使用我們的直覺．我們的直覺是我們最有力的武器．特別是在向?qū)W生或是同事講解一種數(shù)學(xué)時可以看得很清楚．當(dāng)你講解一個很長而且很有難度的論證，最后使學(xué)生明白了．學(xué)生這時會說些什么呢？他會說“我看到了（我懂了）！”在這里看見與理解是同義詞，而且我們還可以用“知覺”這個詞來同時形容它們，至少這在英語里是對的，把這個現(xiàn)象與其他語言作對比同樣有趣．我認為有一點是很基本的：人類通過這種巨大的能力和視覺的瞬間活動獲取大量的信息，從而得以發(fā)展，而教學(xué)參與其中并使之完善．

　　

　　在另一方面（也許有些人不這樣認為），代數(shù)本質(zhì)上涉及的是時間．無論現(xiàn)在做的是哪一類代數(shù)，都是一連串的運算被一個接著一個羅列出來，這里“一個接著一個 ”的意思是我們必須有時間的概念．在一個靜態(tài)的宇宙中，我們無法想象代數(shù)，但幾何的本質(zhì)是靜態(tài)的：我可以坐在這里觀察，沒有什么變化，但我仍可以繼續(xù)觀察．然而,代數(shù)與時間有關(guān)，這是因為我們有一連串的運算，這里當(dāng)我談到“代數(shù)”時，我并不單單指現(xiàn)代代數(shù)．任何算法，任何計算過程，都是一個接著一個地給出一連串步驟,現(xiàn)代計算機的發(fā)展使這一切看得很清楚．現(xiàn)代計算機用一系列0和1來反映其信息并由此給出問題的答案．

　　

　　代數(shù)涉及的是時間的操作，而幾何涉及的是空間．它們是世界互相垂直的兩個方面，并且它們代表數(shù)學(xué)中兩種不同的觀念．因此在過去數(shù)學(xué)家們之間關(guān)于代數(shù)和幾何相對重要性的爭論或者對話代表了某些非常非常基本的事情．

　　

　　當(dāng)然只是為了論證是哪一邊輸了，哪一邊勝利了，這并不值得．當(dāng)我考慮這個問題時，有一個形象的類比：“你愿意成為一個代數(shù)學(xué)家還是一個幾何學(xué)家？”這個問題就象問：“你愿意是聾子還是瞎子？”一樣．如果人的眼睛盲了，就看不見空間；如果人的耳朵聾了，就無法聽見，聽覺是發(fā)生在時間之中的，總的來說，我們還是寧愿二者都要．

　　

　　在物理學(xué)，也有一個類似的、大致平行的關(guān)于物理概念和物理實驗之間的劃分．物理學(xué)有兩個部分：理論——概念，想法，單詞，定律——和實驗儀器．我認為概念在某種廣義的意義下是幾何的，這是因為它們涉及的是發(fā)生在真實世界的事物．另一方面，實驗更象一個代數(shù)計算．人們做事情總要花時間，測定一些數(shù)，將它們代入到公式中去．但是在實驗背后的基本概念卻是幾何傳統(tǒng)的一部分．

　　

　　將上述二分叉現(xiàn)象用更哲學(xué)或者更文學(xué)的語言來說，那就是對幾何學(xué)家而言，代數(shù)就是所謂的“浮士德的奉獻”．正如大家所知道的，在歌德的故事里，浮士德通過魔鬼可以得到他所想要的（就是一個漂亮女人的愛），其代價是出賣他的靈魂，代數(shù)就是由魔鬼提供給數(shù)學(xué)家的供品．魔鬼會說：“我將給你這個有力的機器，它可以回答你的任何問題．你需要做的就是把你的靈魂給我：放棄幾何，你就會擁有這個威力無窮的機器”(現(xiàn)在可以把它想象成為一臺計算機!)．當(dāng)然我們希望同時擁有它們，我們也許可以欺騙魔鬼，假裝我們出賣靈魂，但不真地給它．不過對我們靈魂的威脅依然存在，這是因為當(dāng)我們轉(zhuǎn)入代數(shù)計算時，本質(zhì)上我們會停止思考，停止用幾何的觀念來考慮問題，不再思考其含義．

　　

　　在這里我談?wù)摯鷶?shù)學(xué)家的話重了一些，但是基本土，代數(shù)的目標(biāo)總是想建立一個公式，把它放到一個機器中去，轉(zhuǎn)動一下把手就可以得到答案．也就是拿來一個有意義的東西，把它化成一個公式，然后得到答案．在這樣的一個過程中，人們不再需要思考代數(shù)的這些不同階段對應(yīng)的幾何是什么．就這樣，洞察力丟掉了，而這在那些不同的階段都是非常重要的．我們絕不能放棄這些洞察力！最終我們還是要回到這上面來的，這就是我所談到的浮士德的奉獻．我肯定這種講法尖銳了一點．

　　

　　幾何和代數(shù)的這種選擇導(dǎo)致能融合二者的一些交叉課題的產(chǎn)生，并且代數(shù)和幾何之間的區(qū)別也不象我講的那樣直截了當(dāng)和樸實無華．例如，代數(shù)學(xué)家們經(jīng)常使用圖式(diagram)．而除了幾何直覺，圖式又能是什么呢？

　　

　　

　　

　　通用的技術(shù)

　　

　　現(xiàn)在我不想再談?wù)撎嗑蛢?nèi)容來劃分的主題，而想談?wù)勀切┮勒找呀?jīng)使用的技術(shù)和常見方法所確定的主題，也就是我想描述一些已經(jīng)廣泛應(yīng)用于眾多領(lǐng)域的常見方法．第一個就是：

　　

　　同調(diào)論

　　

　　歷史上同調(diào)論是作為拓撲學(xué)的一個分支而發(fā)展起來的．它涉及到以下情形．現(xiàn)有一個復(fù)雜的拓撲空間，我們想從中得到它的一些簡單信息如計算它的洞或者類似事物的個數(shù),得到某些與之聯(lián)系的可加的線性不變量等．這是一種在非線性條件下關(guān)干線性不變量的構(gòu)造．從幾何的角度來看，閉鏈可加可減，這樣就得到了所謂的一個空間的同調(diào)群．同調(diào)論，作為一種從拓撲空間獲取某些信息的基本代數(shù)工具，是在本世紀上半葉發(fā)現(xiàn)的．這是一種從幾何中獲益匪淺的代數(shù)．

　　

　　同調(diào)概念也出現(xiàn)在其他一些方面．其另一個源頭可以追溯到Hilbert及其關(guān)于多項式的研究中，多項式是非線性的函數(shù)，它們相乘可以得到更高次數(shù)的多項式．正是Hilbert那偉大的洞察力促使他來討論“理想”，具有公共零點的多項式的線性組合．他要尋找這些理想的生成元．生成元可能有很多．他審視它們之間的關(guān)系以及關(guān)系之間的關(guān)系．于是他得到這些關(guān)系的一個分層譜系，這就是所謂的“Hilbert合系”．Hilbert的這個理論是一種非常復(fù)雜的方法，他試圖將一個非線性的情形（多項式的研究）化為線性情形．本質(zhì)上來講，Hilbert構(gòu)造了一個線性關(guān)系的復(fù)雜體系．能夠把象多項式這樣的非線性事物的某些信息納入其中．

　　

　　這個代數(shù)理論實際上是與上述拓撲理論平行的，而且現(xiàn)在它們已融合在一起構(gòu)成了所謂的“同調(diào)代數(shù)”．在代數(shù)幾何學(xué)中，本世紀五十年代最偉大的成就之一是層的上同調(diào)理論的發(fā)展及在解析幾何學(xué)中的擴展，這是由Leray，Cartan，Serre和Grothendieck等人組成的法國學(xué)派取得的．從中我們可以感受到一種既有Riemann-Poincaré的拓撲思想，又有Hilbert的代數(shù)思想，再加上某些分析手段的融合，

　　

　　這表明同調(diào)論在代數(shù)的其它分支也有著廣泛的應(yīng)用．我們可以引入同調(diào)群的概念，它通常是與非線性事物相關(guān)的線性事物．我們可以將之應(yīng)用于群論，例如，有限群，以及李代數(shù)：它們都有相應(yīng)的同調(diào)群．在數(shù)論方面，同調(diào)群通過Galois群產(chǎn)生了非常重要的應(yīng)用．因此在相當(dāng)廣泛的情形下同調(diào)論都是強有力的工具之一，它也是二十世紀數(shù)學(xué)的一個典型的特征．

　　

　　 K-理論

　　

　　我要談的另外一個技術(shù)就是所謂的“K-理論”．它在很多方面都與同調(diào)論相似，它的歷史并不很長（直到二十世紀中葉才出現(xiàn)，盡管其起源的某些方面也許可以追溯到更早一些），但它卻有著很廣泛的應(yīng)用，已經(jīng)滲透進了數(shù)學(xué)的許多部分．K-理論實際上與表示理論緊密相聯(lián)，有限群的表示理論，可以講，起源于十九世紀．但是其現(xiàn)代形式——K-理論卻只有一個相對較短的歷史．K-理論可以用下面的方式來理解：它可以被想成是應(yīng)用矩陣論的一種嘗試．我們知道矩陣的乘法是不可交換的，于是我們想構(gòu)造矩陣可換的或是線性的不變量．跡，維數(shù)和行列式都是矩陣論中可換的不變量，而K-理論即是試圖處理它們的一種系統(tǒng)的方法，它有時也被稱為“穩(wěn)定線性代數(shù)”．其思想就是，如果我們有很多矩陣，那么把兩個不可換的矩陣A和矩陣B放在不同塊的正交位置上，它們就可換了，因為在一個大的空間里，我們可以隨意移動物體．于是在某些近似情況下，這樣做是很有好處的，足以讓我們得到一些信息，這就是作為一個技術(shù)的K-理論的基石．這完全類似于同調(diào)論，二者都是從復(fù)雜的非線性情形獲取線性的信息．

　　

　　在代數(shù)幾何中，K-理論是由Grothendieck首先引入的，并且取得了巨大的成功，這些與我們剛剛談到的層理論密切相關(guān)，而且也和他在Riemann-Roch定理方面的工作有緊密聯(lián)系．

　　

　　在拓撲學(xué)方面，Hirzebruch和我照搬了這些思想并且將它們應(yīng)用到一個純粹的拓撲范疇內(nèi)．從某種意義下來說，如果Grothendieck的工作與 Hilbert在合系方面的工作有關(guān)，那么我們的工作更接近于Riemann-Poincaré在同調(diào)方面的工作，我們用的是連續(xù)函數(shù)，而他用的是多項式．K-理論也在橢圓算子的指標(biāo)理論和線性分析的研究中起了重要作用．

　　

　　從另外一個不同的角度，Milnor，Quillen和其他人發(fā)展了K-理論的代數(shù)方面，這在數(shù)論的研究中有著潛力巨大的應(yīng)用．沿著這個方向的發(fā)展導(dǎo)致了許多有趣問題的產(chǎn)生．

　　

　　在泛函分析方面，包括象Kasparov在內(nèi)的許多人的工作將連續(xù)的K-理論推廣到非交換的C*-代數(shù)情形．一個空間上的連續(xù)函數(shù)在函數(shù)乘積意義下形成一個交換代數(shù)．但是在其他情形下，自然地產(chǎn)生了類似的關(guān)于非交換情形的討論，這時，泛函分析也就自然而然地成為了這些問題的溫床．

　　

　　因此，K-理論是另外一個能夠?qū)⑾喈?dāng)廣泛的數(shù)學(xué)的許多不同方面都能用這種比較簡單的公式來處理的領(lǐng)域，盡管在每一個情形下，都有很多特定于該方面且能夠連接其他部分的非常困難的，技巧性很強的問題．K-理論不是一個統(tǒng)一的工具，它更象是一個統(tǒng)一的框架，在不同部分之間具有類比和相似．

　　

　　這個工作的許多內(nèi)容已經(jīng)被Alain Connes推廣到“非交換微分幾何”．

　　

　　非常有趣的是，也就是在最近，Witten通過他在弦理論方面（基礎(chǔ)物理學(xué)的最新思想）的工作發(fā)現(xiàn)許多很有趣的方法都與K-理有關(guān)，并且K-理論看起來為那些所謂的“守恒量”提供了一個很自然的“家”．雖然在過去同調(diào)論被認為是這些理論的自然框架，但是現(xiàn)在看起來K一理論能提供更好的答案．

　　李群

　　

　　另一個不單單是一項技術(shù)、而且是具有統(tǒng)一性的概念是李群．現(xiàn)在說起李群，我們基本上就是指正交群，酉群，辛群以及一些例外群，它們在二十世紀數(shù)學(xué)歷史中起了非常重要的作用．它們同樣起源于十九世紀．SophusLie是一位十九世紀的挪威數(shù)學(xué)家．正如很多人所講的那樣，他和Fleix Klein，還有其他人一起推動了“連續(xù)群理論”的發(fā)展．對Klein而言，一開始，這是一種試圖統(tǒng)一處理Euclid幾何和非歐幾何這兩種不同類型幾何的方法．雖然這個課題源于十九世紀，但真正起步卻是在二十世紀，作為一種能夠?qū)⒃S多不同問題歸并于其中來研究的統(tǒng)一性框架，李群理論深深地影響了二十世紀．

　　

　　我現(xiàn)在來談?wù)凨lein思想在幾何方面的重要性．對于Klein而言，幾何就是齊性空間，在那里，物體可以隨意移動而保持形狀不變，因此，它們是由一個相關(guān)的對稱群來控制的．Euclid群給出Euclid幾何而雙曲幾何源于另一個李群．于是每一個齊性幾何對應(yīng)一個不同的李群．但是到了后來，隨著對 Riemann的幾何學(xué)工作的進一步發(fā)展，人們更關(guān)心那些不是齊性的幾何，此時曲率隨著位置的變化而變化，并且空間不再有整體對稱性，然而，李群仍然起著重要的作用，這是因為在切空間中我們有Euclid坐標(biāo)，以至于李群可以出現(xiàn)在一種無窮小的層面上．于是在切空間中，從無窮小的角度來看，李群又出現(xiàn)了，只不過由于要區(qū)分不同位置的不同點，我們需要用某種可以處理不同李群的方式來移動物體．這個理論是被Eile Cartan真正發(fā)展起來的，成為現(xiàn)代微分幾何的基石，該理論框架對于Einstein的相對論也起著基本的作用．當(dāng)然Einstein的理論極大地推動了微分幾何的全面發(fā)展．

　　

　　進入二十世紀，我前面提到的整體性質(zhì)涉及到了在整體層面上的李群和微分幾何．一個主要的發(fā)展是給出所謂的“示性類”的信息，這方面標(biāo)志性的工作是由 Borel和Hirzebruch給出的，示性類是拓撲不變量并且融合三個關(guān)鍵部分：李群，微分幾何和拓撲，當(dāng)然也包含與群本身有關(guān)的代數(shù)．

　　在更帶分析味的方向上，我們得到了現(xiàn)在被稱為非交換調(diào)和分析的理論．這是Fourier理論的推廣，對于后者，F(xiàn)ourier級數(shù)或者是Fourier積分本質(zhì)上對應(yīng)于圓周和直線的交換李群，當(dāng)我們用更為復(fù)雜的李群代替它們時，我們就可以得到一個非常漂亮、非常精巧且將李群表示理論和分析融為一體的理論．這本質(zhì)上是Harish-Chandra一生的工作．

　　

　　在數(shù)論方面，整個“Lang1ands綱領(lǐng)”,現(xiàn)在許多人都這樣稱呼它，緊密聯(lián)系于Harish-Chandra理論，產(chǎn)生于李群理論之中．對于每一個李群，我們都可以給出相應(yīng)的數(shù)論和在某種程度實施Langlands綱領(lǐng)．在本世紀后半葉，代數(shù)數(shù)論的一大批工作深受其影響．模形式的研究就是其中一個很好的例證，這還包括Andrew Wiles在Fermat大定理方面的工作．

　　

　　也許有人認為李群只不過在幾何范疇內(nèi)特別重要而已，因為這是出于連續(xù)變量的需要．然而事實并非如此，有限域上的李群的類似討論可以給出有限群，并且大多數(shù)有限群都是通過這種方式產(chǎn)生的．因此李群理論的一些技巧甚至可以被應(yīng)用到有限域或者是局部域等一些離散情形中．這方面有許多純代數(shù)的工作，例如與 George Lusztig名字聯(lián)系在一起的工作．在這些工作中，有限群的表示理論被加以討論，并且我已經(jīng)提到的許多技術(shù)在這里也可以找到它們的用武之地．

　　

　　有限群

　　

　　上述討論已把我們帶到有限群的話題，這也提醒了我：有限單群的分類是我必須承認的一項工作．許多年以前，也就是在有限單群分類恰要完成之時,我接受了一次采訪，并且我還被問道我對有限單群分類的看法,我當(dāng)時很輕率地說我并不認為它有那么重要．我的理由是有限單群分類的結(jié)果告訴我們，大多數(shù)單群都是我們已知的，還有就是一張有關(guān)若干例外情形的表．在某種意義下，這只不過是結(jié)束了一個領(lǐng)域．而并沒有開創(chuàng)什么新東西，當(dāng)事物用結(jié)束代替開始時，我不會感到很興奮．但是我的許多在這一領(lǐng)域工作的朋友聽到我這么講，理所當(dāng)然地會感到非常非常不高興，我從那時起就不得不穿起“防彈衣”了．

　　

　　在這項研究中，有一個可以彌補缺點的優(yōu)點．我在這里實際上指的是在所有的所謂“散在群”(sporadic groups)中，最大的被賦予了“魔群”名字的那一個．我認為魔群的發(fā)現(xiàn)這件事本身就是有限單群分類中最叫人興奮的結(jié)果了．可以看出魔群是一個極其有意思的動物而且現(xiàn)在還處于被了解之中．它與數(shù)學(xué)的許多分支的很大一部分有著意想不到的聯(lián)系，如與橢圓模函數(shù)的聯(lián)系，甚至與理論物理和量子場論都有聯(lián)系．這是分類工作的一個有趣的副產(chǎn)品．正如我所說的，有限單群分類本身關(guān)上了大門，但是魔群又開啟了一扇大門．

　　

　　

　　物理的影響

　　

　　現(xiàn)在讓我把話題轉(zhuǎn)到一個不同的主題，即談?wù)勎锢淼挠绊懀谡麄€歷史中，物理與數(shù)學(xué)有著非常悠久的聯(lián)系，并且大部分數(shù)學(xué)，例如微積分，就是為了解決物理中出現(xiàn)的問題而發(fā)展起來的．在二十世紀中葉，隨著大多數(shù)純數(shù)學(xué)在獨立于物理學(xué)時仍取得了很好的發(fā)展，這種影響或聯(lián)系也許變得不太明顯．但是在本世紀最后四分之一的時間里，事情發(fā)生了戲劇性的變化,讓我試著簡單地評述一下物理學(xué)和數(shù)學(xué)，尤其是和幾何的相互影響．

　　

　　在十九世紀，Hamilton發(fā)展了經(jīng)典力學(xué)，引入了現(xiàn)在稱為Hamilton量的形式化．經(jīng)典力學(xué)導(dǎo)出現(xiàn)在所謂的“辛幾何”．這是幾何的一個分支，雖然很早已經(jīng)有人研究了，但是實際上直到最近二十年，這個課題才得到真正的研究．這已經(jīng)是幾何學(xué)非常豐富的一部分．幾何學(xué)，我在這里使用這個詞的意思是指，它有三個分支：Riemann幾何，復(fù)幾何和辛幾何，并且分別對應(yīng)三個不同類型的李群．辛幾何是它們之中最新發(fā)展起來的，并且在某種意義下也許是最有趣的，當(dāng)然也是與物理有極其緊密聯(lián)系的一個，這主要因為它的歷史起源與Hamilton力學(xué)有關(guān)以及近些年來它與量子力學(xué)的聯(lián)系．現(xiàn)在，我前面提到過的、作為電磁學(xué)基本線性方程的Maxwell方程，是Hodge在調(diào)和形式方面工作和在代數(shù)幾何中應(yīng)用方面工作的源動力．這是一個非常富有成果的理論，并且自從本世紀三十年代以來已經(jīng)成為幾何學(xué)中的許多工作的基礎(chǔ)．

　　

　　我已經(jīng)提到過廣義相對論和Einstein的工作．量子力學(xué)當(dāng)然更是提供了一個重要的實例．這不僅僅體現(xiàn)在對易關(guān)系上，而且更顯著地體現(xiàn)在對Hilbert空間和譜理論的強調(diào)上．

　　

　　以一種更具體和明顯的方式，結(jié)晶學(xué)的古典形式是與晶體結(jié)構(gòu)的對稱性有關(guān)的．第一個被研究的實例是發(fā)生在點周圍的有限對稱群，這是鑒于它們在結(jié)晶學(xué)中的應(yīng)用．在本世紀中，群論更深刻的應(yīng)用已經(jīng)轉(zhuǎn)向與物理的關(guān)系，被假設(shè)用來構(gòu)成物質(zhì)的基本粒子看起來在最小的層面上有隱藏的對稱性，在這個層面上，有某些李群在此出沒，對此我們看不見，但是當(dāng)我們研究粒子的實際行為時，它們的對稱性就顯現(xiàn)無遺了．所以我們假定了一個模型，在這個模型當(dāng)中，對稱性是一個本質(zhì)性的要素，而且目前那些很普遍的不同理論都有一些象SU(2)和SU(3)那樣的基本李群融入其中并構(gòu)成基礎(chǔ)的對稱群，因此這些李群看起來象是建設(shè)物質(zhì)大廈的磚石．

　　

　　并不是只有緊李群才出現(xiàn)在物理中,一些非緊李群也出現(xiàn)在物理中，例如Lorentz群．正是由物理學(xué)家第一個開始研究非緊李群的表示理論的．它們是那些能夠發(fā)生在Hilbert空間的表示，這是因為，對于緊群而言，所有不可約表示都是有限維的，而非緊群需要的是無窮維表示，這也是首先由物理學(xué)家意識到的．

　　

　　在二十世紀的最后25年里，正如我剛剛完成闡述的，有一種巨大的從物理學(xué)的新思想到數(shù)學(xué)的滲透，這也許是整個世紀最引人注目的事件之一，就這個問題本身，也許就需要一個完整的報告，但是，基本上來講，量子場論和弦理論已經(jīng)以引人注目的方式影響了數(shù)學(xué)的許多分支，得到了眾多的新結(jié)果、新思想和新技術(shù)．這里，我的意思是指物理學(xué)家通過對物理理論的理解已經(jīng)能夠預(yù)言某些在數(shù)學(xué)上是對的事情了．當(dāng)然，這不是一個精確的證明，但是確有非常強有力的直覺、一些特例和類比所支持．?dāng)?shù)學(xué)家們經(jīng)常來檢驗這些由物理學(xué)家預(yù)言的結(jié)果，并且發(fā)現(xiàn)它們基本上是正確的，盡管給出證明是很困難的而且它們中的許多還沒有被完全證明．

　　

　　所以說沿著這個方向，在過去的25年里取得了巨大的成果．這些結(jié)果是極其細致的．這并不象物理學(xué)家所講的“這是一種應(yīng)該是對的東西”．他們說：“這里有明確的公式，還有頭十個實例（涉及超過12位的數(shù)字）”．他們會給出關(guān)于復(fù)雜問題的準(zhǔn)確答案，這些決不是那種靠猜測就能得到的，而是需要用機器計算的東西，量子場論提供了一個重要的工具，雖然從數(shù)學(xué)上來理解很困難，但是站在應(yīng)用的角度，它有意想不到的回報．這是最近25年中真正令人興奮的事件．

　　

　　在這里我列一些重要的成果：SimonDona1dson在四維流形方面的工作；Vaughan-Jones在扭結(jié)不變量方面的工作；鏡面對稱，量子群；再加上我剛才提到的“魔群”

　　

　　這個主題到底講的是什么呢？正如我在前面提到過的一樣，二十世紀見證了維數(shù)的一種轉(zhuǎn)換并且以轉(zhuǎn)換為無窮維而告終，物理學(xué)家超越了這些，在量子場論方面，他們真正試圖對廣泛的無窮維空間進行細致的研究，他們處理的無窮維空間是各類典型的函數(shù)空間，它們非常復(fù)雜，不僅是因為它們是無窮維的，而且它們有復(fù)雜的代數(shù)、幾何以及拓撲，還有圍繞其中的很大的李群，即無窮維的李群，因此正如二十世紀數(shù)學(xué)的大部分涉及的是幾何、拓撲、代數(shù)以及有限維李群和流形上分析的發(fā)展，這部分物理涉及了在無窮維情形下的類似處理．當(dāng)然，這是一件非常不同的事情，但確有巨大的成功．

　　

　　讓我更詳盡地解釋一下，量子場論存在于空間和時間中．空間的真正的意義是三維的，但是有簡化的模型使我們將空間取成一維．在一維空間和一維時間里，物理學(xué)家遇到的典型事物，用數(shù)學(xué)語言來講，就是由圓周的微分同胚構(gòu)成的群或者是由從圓周到一個緊李群的微分映射構(gòu)成的群．它們是出現(xiàn)在這些維數(shù)里的量子場論中的兩個非常基本的無窮維李群的例子，它們也是理所當(dāng)然的數(shù)學(xué)事物并且已經(jīng)被數(shù)學(xué)家們研究了一段時間．

　　

　　在這樣一個1＋1維理論中，我們將時空取成一個Riemann曲面并且由此可以得到很多新的結(jié)果．例如，研究一個給定虧格數(shù)的Riemann曲面的模空間是個可以追溯到上個世紀的古典課題．而由量子場論已經(jīng)得到了很多關(guān)于這些模空間的上同調(diào)的新結(jié)果．另一個非常類似的模空間是一個具有虧格數(shù)g的 Riemann曲面上的平坦G-叢的模空間．這些空間都是非常有趣的并且量子場論給出關(guān)于它們的一些精確結(jié)果．特別地，可以得到一些關(guān)于體積的很漂亮的公式，這其中涉及到Zeta函數(shù)的取值．

　　

　　另一個應(yīng)用與計數(shù)曲線(counting curve)有關(guān)．如果我們來看給定次數(shù)和類型的平面代數(shù)曲線，我們想要知道的是，例如，經(jīng)過那么多點究竟有多少曲線，這樣我們就要面臨代數(shù)幾何的計數(shù)問題，這些問題在上個世紀一直是很經(jīng)典的．而且也是非常困難的．現(xiàn)在它們已經(jīng)通過被稱為“量子上同調(diào)”的現(xiàn)代技術(shù)解決了，這完全是從量子場論中得到的．或者我們也可以接觸那些關(guān)于不在平面上而在彎曲族上的曲線的更加困難的問題，這樣我們得到了另一個具有明確結(jié)果的被稱為鏡面對稱的美妙理論，所有這些都產(chǎn)生于 1＋1維量子場論．

　　

　　如果我們升高一個維數(shù)，也就是2-維空間和1-維時間，就可以得到Vaughan-Jones的扭結(jié)不變量理論．這個理論已經(jīng)用量子場論的術(shù)語給予了很美妙的解釋和分析．

　　

　　量子場論另一個結(jié)果是所謂的“量子群”．現(xiàn)在關(guān)于量子群的最好的東西是它們的名字．明確地講它們不是群！如果有人要問我一個量子群的定義，我也許需要用半個小時來解釋，它們是復(fù)雜的事物，但毫無疑問它們與量子理論有著很深的聯(lián)系它們源于物理，而且現(xiàn)在的應(yīng)用者是那些腳踏實地的代數(shù)學(xué)家們，他們實際上用它們進行確定的計算．

　　

　　如果我們將維數(shù)升得更高一些，到一個全四維理論（三加一維），這就是Donaldson的四維流形理論，在這里量子場論產(chǎn)生了重大影響．特別地，這還導(dǎo)致 Seiberg和Witten建立了他們相應(yīng)的理論，該理論建立在物理直覺之上并且也給出許多非同尋常的數(shù)學(xué)結(jié)果．所有這些都是些突出的例子．其實還有更多的例子．

　　

　　接下來是弦理論并且這已經(jīng)是過時的了！我們現(xiàn)在所談?wù)摰氖荕一理論，這是一個內(nèi)容豐富的理論，其中同樣有大量的數(shù)學(xué)，從關(guān)于它的研究中得到的結(jié)果仍有待于進一步消化并且足可以讓數(shù)學(xué)家們忙上相當(dāng)長的時間．

　　

　　

　　

　　歷史的總結(jié)

　　

　　我現(xiàn)在作一個簡短的總結(jié)．讓我概括地談?wù)剼v史：數(shù)學(xué)究竟發(fā)生了什么？我相當(dāng)隨意地把十八世紀和十九世紀放在了一起，把它們當(dāng)做我們稱為古典數(shù)學(xué)的時代，這個時代是與Euler和Gauss這樣的人聯(lián)系在一起的，所有偉大的古典數(shù)學(xué)結(jié)果也都是在這個時代被發(fā)現(xiàn)和發(fā)展的．有人也許認為那幾乎就是數(shù)學(xué)的終結(jié)了，但是相反地，二十世紀實際上非常富有成果，這也是我一直在談?wù)摰模?br>
　　

　　二十世紀大致可以一分為二地分成兩部分．我認為二十世紀前半葉是被我稱為“專門化的時代”，這是一個Hilbert的處理辦法大行其道的時代，即努力進行形式化，仔細地定義各種事物，并在每一個領(lǐng)域中貫徹始終．正如我說到過的，Bourbaki的名字是與這種趨勢聯(lián)系在一起的．在這種趨勢下，人們把注意力都集中于在特定的時期從特定的代數(shù)系統(tǒng)或者其它系統(tǒng)能獲得什么．二十世紀后半葉更多地被我稱為“統(tǒng)一的時代”，在這個時代，各個領(lǐng)域的界限被打破了，各種技術(shù)可以從一個領(lǐng)域應(yīng)用到另外一個領(lǐng)域，并且事物在很大程度上變得越來越有交叉性．我想這是一種過于簡單的說法，但是我認為這簡單總結(jié)了我們所看到的二十世紀數(shù)學(xué)的一些方面．

　　

　　二十一世紀會是什么呢？我已經(jīng)說過，二十一世紀是量子數(shù)學(xué)的時代，或者，如果大家喜歡，可稱為是無窮維數(shù)學(xué)的時代．這意味著什么呢？量子數(shù)學(xué)的含義是指我們能夠恰當(dāng)?shù)乩斫夥治觥缀巍⑼負浜透魇礁鳂拥姆蔷€性函數(shù)空間的代數(shù)，在這里，“恰當(dāng)?shù)乩斫?#8221;，我是指能夠以某種方式對那些物理學(xué)家們已經(jīng)推斷出來的美妙事物給出較精確的證明．

　　

　　有人要說，如果用天真幼稚的方式(naive way)來研究無窮維并問一些天真幼稚的問題，通常來講，只能得到錯誤的答案或者答案是無意義的，物理的應(yīng)用、洞察力和動機使得物理學(xué)家能夠問一些關(guān)于無窮維的明智的問題，并且可以在有合乎情理的答案時作一些非常細致的工作，因此用這種方式分析無窮維決不是一件輕而易舉的事情．我們必須沿著這條正確的道路走下去．我們已經(jīng)得到了許多線索，地圖已經(jīng)攤開了：我們的目標(biāo)已經(jīng)有了，只不過還有很長的路要走．

　　

　　還有什么會發(fā)生在二十一世紀？我想強調(diào)一下Connes的非交換微分幾何．Alain Connes擁有這個相當(dāng)宏偉的統(tǒng)一理論．同樣，它融合了一切．它融合了分析、代數(shù)、幾何、拓撲、物理、數(shù)論，所有這一切都是它的一部分．這是一個框架性理論，它能夠讓我們在非交換分析的范疇里從事微分幾何學(xué)家通常所做的工作，這當(dāng)中包括與拓撲的關(guān)系．要求這樣做是有很好的理由的，因為它在數(shù)論、幾何、離散群等等以及在物理中都有（潛力巨大的或者特別的）應(yīng)用．一個與物理有趣的聯(lián)系也剛剛被發(fā)現(xiàn)．這個理論能夠走多遠，能夠得到什么結(jié)果，還有待進一步觀察．它理所當(dāng)然地是我所期望的至少在下個世紀頭十年能夠得到顯著發(fā)展的課題，而且找到它與尚不成熟的（精確）量子場論之間的聯(lián)系是完全有可能的．

　　

　　我們轉(zhuǎn)到另一個方面，也就是所謂的“算術(shù)幾何”或者是Arakelov幾何，其試圖盡可能多地將代數(shù)幾何和數(shù)論的部分內(nèi)容統(tǒng)一起來．這是一個非常成功的理論．它已經(jīng)有了一個美好的開端，但仍有很長的路要走．這又有誰知道呢？

　　

　　當(dāng)然，所有這些都有一些共同點．我期待物理學(xué)能夠?qū)⑺挠绊懕榧八械胤剑踔潦菙?shù)論：Andrew Wiles不同意我這樣說，只有時間會說明一切．

　　

　　這些是我所能看到的在下個十年里出現(xiàn)的幾個方面，但也有一些難以捉摸的東西：返回至低維幾何．與所有無窮維的富有想象的事物在一起，低維幾何的處境有些尷尬．從很多方面來看，我們開始時討論的維數(shù)，或我們祖先開始時的維數(shù)，仍留下某些未解之謎．維數(shù)為2，3和4的對象被我們稱為“低”維的．例如 Thurston在三維幾何的工作，目標(biāo)就是能夠給出一個三維流形上的幾何分類，這比二維理論要深刻得多．Thurston綱領(lǐng)還遠遠沒有完成，完成這個綱領(lǐng)當(dāng)然將是一個重要的挑戰(zhàn)．

　　

　　在三維中另外一個引人注目的事件是Vaughan-Jones那些思想本質(zhì)上來源于物理的工作．這給了我們更多的關(guān)于三維的信息，并且它們幾乎完全不在 Thurston綱領(lǐng)包含的信息之內(nèi)．如何將這兩個方面聯(lián)系起來仍然是一個巨大的挑戰(zhàn)，但是最近得到的結(jié)果暗示兩者之間可能有一座橋，因此，整個低維的領(lǐng)域都與物理有關(guān)，但是其中實在有太多讓人琢磨不透的東西．

　　

　　最后，我要提一下的是在物理學(xué)中出現(xiàn)的非常重要的“對偶”．這些對偶，泛泛地來講，產(chǎn)生于一個量子理論被看成一個經(jīng)典理論時有兩種不同的實現(xiàn)．一個簡單的例子是經(jīng)典力學(xué)中的位置和動量的對偶．這樣由對偶空間代替了原空間，并且在線性理論中，對偶就是Fourier變換．但是在非線性理論中，如何來代替 Fourier變換是巨大的挑戰(zhàn)之一．?dāng)?shù)學(xué)的大部分都與如何在非線性情形下推廣對偶有關(guān)．物理學(xué)家看起來能夠在他們的弦理論和M一理論中以一種非同尋常的方式做到了這一點．他們構(gòu)造了一個又一個令人嘆為觀止的對偶實例，在某種廣義的意義下，它們是Fourier變換的無窮維非線性體現(xiàn)，并且看起來它們能解決問題，然而理解這些非線性對偶性看起來也是下個世紀的巨大挑戰(zhàn)之一．

　　

　　我想我就談到這里．這里還有大量的工作，并且我覺得象我這樣的一個老人可以和你們這么多的年輕人談?wù)勈且患浅：玫氖虑椋欢椅乙部梢詫δ銈冋f：在下個世紀，有大量的工作在等著你們?nèi)ネ瓿桑?br>
　　

　　

　　

　　（原載《數(shù)學(xué)譯林》2002/2，白承銘譯，周性偉、馮惠濤校）

bneliao 2008-09-07 23:07 發(fā)表評論

介紹幾本數(shù)學(xué)書zz

bneliao — Sat, 06 Sep 2008 17:50:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2496.entry

7月13日

介紹幾本數(shù)學(xué)書

前面幾篇談了一些對數(shù)學(xué)的粗淺看法。其實，如果對某門數(shù)學(xué)有興趣，最好的方法就是走進那個世界去學(xué)習(xí)和體驗。

這里說說幾本我看過后覺得不錯的數(shù)學(xué)教科書。

1. 線性代數(shù) (Linear Algebra)：

我想國內(nèi)的大學(xué)生都會學(xué)過這門課程，但是，未必每一位老師都能貫徹它的精要。這門學(xué)科對于Learning是必備的基礎(chǔ)，對它的透徹掌握是必不可少的。我在科大一年級的時候就學(xué)習(xí)了這門課，后來到了香港后，又重新把線性代數(shù)讀了一遍，所讀的是

Introduction to Linear Algebra (3rd Ed.) by Gilbert Strang.

這本書是MIT的線性代數(shù)課使用的教材，也是被很多其它大學(xué)選用的經(jīng)典教材。它的難度適中，講解清晰，重要的是對許多核心的概念討論得比較透徹。我個人覺得，學(xué)習(xí)線性代數(shù)，最重要的不是去熟練矩陣運算和解方程的方法——這些在實際工作中MATLAB可以代勞，關(guān)鍵的是要深入理解幾個基礎(chǔ)而又重要的概念：子空間(Subspace)，正交(Orthogonality)，特征值和特征向量(Eigenvalues and eigenvectors)，和線性變換(Linear transform)。從我的角度看來，一本線代教科書的質(zhì)量，就在于它能否給這些根本概念以足夠的重視，能否把它們的聯(lián)系講清楚。Strang的這本書在這方面是做得很好的。

而且，這本書有個得天獨厚的優(yōu)勢。書的作者長期在MIT講授線性代數(shù)課(18.06)，課程的video在MIT的Open courseware網(wǎng)站上有提供。有時間的朋友可以一邊看著名師授課的錄像，一邊對照課本學(xué)習(xí)或者復(fù)習(xí)。

http://ocw.mit.edu/OcwWeb/Mathematics/18-06Spring-2005/CourseHome/index.htm

2. 概率和統(tǒng)計 (Probability and Statistics):

概率論和統(tǒng)計的入門教科書很多，我目前也沒有特別的推薦。我在這里想介紹的是一本關(guān)于多元統(tǒng)計的基礎(chǔ)教科書：

Applied Multivariate Statistical Analysis (5th Ed.) by Richard A. Johnson and Dean W. Wichern

這本書是我在剛接觸向量統(tǒng)計的時候用于學(xué)習(xí)的，我在香港時做研究的基礎(chǔ)就是從此打下了。實驗室的一些同學(xué)也借用這本書學(xué)習(xí)向量統(tǒng)計。這本書沒有特別追求數(shù)學(xué)上的深度，而是以通俗易懂的方式講述主要的基本概念，讀起來很舒服，內(nèi)容也很實用。對于Linear regression, factor analysis, principal component analysis (PCA), and canonical component analysis (CCA)這些Learning中的基本方法也展開了初步的論述。

之后就可以進一步深入學(xué)習(xí)貝葉斯統(tǒng)計和Graphical models。一本理想的書是

Introduction to Graphical Models (draft version). by M. Jordan and C. Bishop.

我不知道這本書是不是已經(jīng)出版了（不要和Learning in Graphical Models混淆，那是個論文集，不適合初學(xué)）。這本書從基本的貝葉斯統(tǒng)計模型出發(fā)一直深入到復(fù)雜的統(tǒng)計網(wǎng)絡(luò)的估計和推斷，深入淺出，statistical learning的許多重要方面都在此書有清楚論述和詳細講解。MIT內(nèi)部可以access，至于外面，好像也是有電子版的。

3. 分析 (Analysis)：

我想大家基本都在大學(xué)就學(xué)過微積分或者數(shù)學(xué)分析，深度和廣度則隨各個學(xué)校而異了。這個領(lǐng)域是很多學(xué)科的基礎(chǔ)，值得推薦的教科書莫過于

Principles of Mathematical Analysis, by Walter Rudin

有點老，但是絕對經(jīng)典，深入透徹。缺點就是比較艱深——這是Rudin的書的一貫風(fēng)格，適合于有一定基礎(chǔ)后回頭去看。

在分析這個方向，接下來就是泛函分析(Functional Analysis)。

Introductory Functional Analysis with Applications, by Erwin Kreyszig.

適合作為泛函的基礎(chǔ)教材，容易切入而不失全面。我特別喜歡它對于譜論和算子理論的特別關(guān)注，這對于做learning的研究是特別重要的。 Rudin也有一本關(guān)于functional analysis的書，那本書在數(shù)學(xué)上可能更為深刻，但是不易于上手，所講內(nèi)容和learning的切合度不如此書。

在分析這個方向，還有一個重要的學(xué)科是測度理論(Measure theory)，但是我看過的書里面目前還沒有感覺有特別值得介紹的。

4. 拓撲 (Topology)：

在我讀過的基本拓撲書各有特色，但是綜合而言，我最推崇：

Topology (2nd Ed.) by James Munkres

這本書是Munkres教授長期執(zhí)教MIT拓撲課的心血所凝。對于一般拓撲學(xué)(General topology)有全面介紹，而對于代數(shù)拓撲(Algebraic topology)也有適度的探討。此書不需要特別的數(shù)學(xué)知識就可以開始學(xué)習(xí)，由淺入深，從最基本的集合論概念（很多書不屑講這個）到Nagata- Smirnov Theorem和Tychonoff theorem等較深的定理（很多書避開了這個）都覆蓋了。講述方式思想性很強，對于很多定理，除了給出證明過程和引導(dǎo)你思考其背后的原理脈絡(luò)，很多令人贊嘆的亮點——我常讀得忘卻饑餓，不愿釋手。很多習(xí)題很有水平。

5. 流形理論 (Manifold theory)：

對于拓撲和分析有一定把握時，方可開始學(xué)習(xí)流形理論，否則所學(xué)只能流于浮淺。我所使用的書是

Introduction to Smooth Manifolds. by John M. Lee

雖然書名有introduction這個單詞，但是實際上此書涉入很深，除了講授了基本的manifold, tangent space, bundle, sub-manifold等，還探討了諸如綱理論(Category theory)，德拉姆上同調(diào)(De Rham cohomology)和積分流形等一些比較高級的專題。對于李群和李代數(shù)也有相當(dāng)多的討論。行文通俗而又不失嚴謹，不過對某些記號方式需要熟悉一下。

雖然李群論是建基于平滑流形的概念之上，不過，也可能從矩陣出發(fā)直接學(xué)習(xí)李群和李代數(shù)——這種方法對于急需使用李群論解決問題的朋友可能更加實用。而且，對于一個問題從不同角度看待也利于加深理解。下面一本書就是這個方向的典范：

Lie Groups, Lie Algebras, and Representations: An Elementary Introduction. by Brian C. Hall

此書從開始即從矩陣切入，從代數(shù)而非幾何角度引入矩陣李群的概念。并通過定義運算的方式建立exponential mapping，并就此引入李代數(shù)。這種方式比起傳統(tǒng)的通過“左不變向量場(Left-invariant vector field)“的方式定義李代數(shù)更容易為人所接受，也更容易揭示李代數(shù)的意義。最后，也有專門的論述把這種新的定義方式和傳統(tǒng)方式聯(lián)系起來。

————————————————————————————

無論是研究Vision, Learning還是其它別的學(xué)科，數(shù)學(xué)終究是根基所在。學(xué)好數(shù)學(xué)是做好研究的基石。學(xué)好數(shù)學(xué)的關(guān)鍵歸根結(jié)底是自己的努力，但是選擇一本好的書還是大有益處的。不同的人有不同的知識背景，思維習(xí)慣和研究方向，因此書的選擇也因人而異，只求適合自己，不必強求一致。上面的書僅僅是從我個人角度的出發(fā)介紹的，我的閱讀經(jīng)歷實在非常有限，很可能還有比它們更好的書（不妨也告知我一聲，先說聲謝謝了）。

bneliao 2008-09-07 01:50 發(fā)表評論

拓撲：游走于直觀與抽象之間zz

bneliao — Sat, 06 Sep 2008 16:05:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2478.entry
6月22日

拓撲：游走于直觀與抽象之間

近日來，抽空再讀了一遍點集拓撲(Point Set Topology)，這是我第三次重新學(xué)習(xí)這個理論了。我看電視劇和小說，極少能有興致看第二遍，但是，對于數(shù)學(xué)，每看一次都有新的啟發(fā)和收獲。

代數(shù)，分析，和拓撲，被稱為是現(xiàn)代數(shù)學(xué)的三大柱石。最初讀拓撲，是在兩三年前，由于學(xué)習(xí)流形理論的需要。可是，隨著知識的積累，發(fā)現(xiàn)它是很多理論的根基。可以說，沒有拓撲，就沒有現(xiàn)代意義的分析與幾何。我們在各種數(shù)學(xué)分支中接觸到的最基本的概念，比如，極限，連續(xù)，距離（度量），邊界，路徑，在現(xiàn)代數(shù)學(xué)中，都源于拓撲。

拓撲學(xué)是一門非常奇妙的學(xué)科，它把最直觀的現(xiàn)象和最抽象的概念聯(lián)系在一起了。拓撲描述的是普遍使用的概念（比如開集，閉集，連續(xù)），我們對這些概念習(xí)以為常，理所當(dāng)然地使用著，可是，真要定義它，則需要對它們本質(zhì)的最深刻的洞察。數(shù)學(xué)家們經(jīng)過長時間的努力，得到了這些概念的現(xiàn)代定義。這里面很多第一眼看上去，會感覺驚奇——怎么會定義成這個樣子。

首先是開集。在學(xué)習(xí)初等數(shù)學(xué)時，我們都學(xué)習(xí)開區(qū)間 (a, b)。可是，這只是在一條線上的，怎么推廣到二維空間，或者更高維空間，或者別的形體上呢？最直觀的想法，就是“一個不包含邊界的集合”。可是，問題來了，給一個集合，何謂“邊界”？在拓撲學(xué)里面，開集(Open Set)是最根本的概念，它是定義在集合運算的基礎(chǔ)上的。它要求開集符合這樣的條件：開集的任意并集和有限交集仍為開集。

我最初的時候，對于這樣的定義方式，確實百思不解。不過，讀下去，看了和做了很多證明后，發(fā)現(xiàn)，這樣的定義一個很重要的意義在于：它保證了開集中每個點都有一個鄰域包含在這個集合內(nèi)——所有點都和外界（補集）保持距離。這樣的理解應(yīng)該比使用集合運算的定義有更明晰的幾何意義。但是，直觀的東西不容易直接形成嚴謹?shù)亩? 義，使用集合運算則更為嚴格。而集合運算定義中，任意并集的封閉性是對這個幾何特點的內(nèi)在保證。

另外一個例子就是“連續(xù)函數(shù) ”(Continuous Function)。在學(xué)微積分時，一個耳熟能詳?shù)亩x是“對任意的epsilon > 0，存在delta > 0，使得。。。。”，背后最直觀的意思就是“足夠近的點保證映射到任意小的范圍內(nèi)”。可是，epsilon, delta都依賴于實空間，不在實空間的映射又怎么辦呢？拓撲的定義是“如果一個映射的值域中任何開集的原像都是開集，那么它連續(xù)。”這里就沒有 epsilon什么事了。

這里的關(guān)鍵在于，在拓撲學(xué)中，開集的最重要意義就是要傳遞“鄰域”的意思——開集本身就是所含點的鄰域。這樣連續(xù)定義成這樣就順理成章了。稍微把說法調(diào)節(jié)一下，上面的定義就變成了“對于f(x)的任意領(lǐng)域U，都有x的一個鄰域V，使得V里面的點都映射到U中。”

這里面，我們可以感受到為什么開集在拓撲學(xué)中有根本性的意義。既然開集傳達“鄰域”的意思，那么，它最重要的作用就是要表達哪些點靠得比較近。給出一個拓撲結(jié)構(gòu)，就是要指出哪些是開集，從而指出哪些點靠得比較近，這樣就形成了一個聚集結(jié)構(gòu)——這就是拓撲。

可是這也可以通過距離來描述，為什么要用開集呢，反而不直觀了。某種意義上說，拓撲是“定性”的，距離度量是“定量”的。隨著連續(xù)變形，距離會不斷變化，但是靠近的點還是靠近，因此本身固有的拓撲特性不會改變。拓撲學(xué)研究的就是這種本質(zhì)特性——連續(xù)變化中的不變性。

在拓撲的基本概念中，最令人費解的，莫過于“緊性”(Compactness)。它描述一個空間或者一個集合“緊不緊”。正式的定義是“如果一個集合的任意開覆蓋都有有限子覆蓋，那么它是緊的”。乍一看，實在有點莫名其妙。它究竟想描述一個什么東西呢？和“緊”這個形容詞又怎么扯上關(guān)系呢？

一個直觀一點的理解，幾個集合是“緊”的，就是說，無限個點撒進去，不可能充分散開。無論鄰域多么小，必然有一些鄰域里面有無限個點。上面關(guān)于 compactness的這個定義的玄機就在有限和無限的轉(zhuǎn)換中。一個緊的集合，被無限多的小鄰域覆蓋著，但是，總能找到其中的有限個就能蓋全。那么，后果是什么呢？無限個點撒進去，總有一個鄰域包著無數(shù)個點。鄰域們再怎么小都是這樣——這就保證了無限序列中存在極限點。

Compact這個概念雖然有點不那么直觀，可是在分析中有著無比重要的作用。因為它關(guān)系到極限的存在性——這是數(shù)學(xué)分析的基礎(chǔ)。了解泛函分析的朋友都知道，序列是否收斂，很多時候就看它了。微積分中，一個重要的定理——有界數(shù)列必然包含收斂子列，就是根源于此。

在學(xué)習(xí)拓撲，或者其它現(xiàn)代數(shù)學(xué)理論之前，我們的數(shù)學(xué)一直都在有限維歐氏空間之中，那是一個完美的世界，具有一切良好的屬性，Hausdorff, Locally compact, Simply connected，Completed，還有一套線性代數(shù)結(jié)構(gòu)，還有良好定義的度量，范數(shù)，與內(nèi)積。可是，隨著研究的加深，終究還是要走出這個圈子。這個時候，本來理所當(dāng)然的東西，變得不那么必然了。

兩個點必然能分開？你要證明空間是Hausdorff的。

有界數(shù)列必然存在極限點？這只在locally compact的空間如此。

一個連續(xù)體內(nèi)任意兩點必然有路徑連接？這可未必。

一切看上去有悖常理，而又確實存在。從線性代數(shù)到一般的群，從有限維到無限維，從度量空間到拓撲空間，整個認識都需要重新清理。而且，這些絕非僅是數(shù)學(xué)家的概念游戲，因為我們的世界不是有限維向量能充分表達的。當(dāng)我們研究一些不是向量能表達的東西的時候，度量，代數(shù)，以及分析的概念，都要重新建立，而起點就在拓撲。

bneliao 2008-09-07 00:05 發(fā)表評論

圖˙譜˙馬爾可夫過程˙聚類結(jié)構(gòu)zz

bneliao — Sat, 06 Sep 2008 15:47:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2339.entry

圖˙譜˙馬爾可夫過程˙聚類結(jié)構(gòu)

題目中所說到的四個詞語，都是Machine Learning以及相關(guān)領(lǐng)域中熱門的研究課題。表面看屬于不同的topic，實際上則是看待同一個問題的不同角度。不少文章論述了它們之間的一些聯(lián)系，讓大家看到了這個世界的奇妙。

從圖說起

這里面，最簡單的一個概念就是“圖”(Graph)，它用于表示事物之間的相互聯(lián)系。每個圖有一批節(jié)點(Node)，每個節(jié)點表示一個對象，通過一些邊(Edge)把這些點連在一起，表示它們之間的關(guān)系。就這么一個簡單的概念，它對學(xué)術(shù)發(fā)展的意義可以說是無可估量的。幾乎所有領(lǐng)域研究的東西，都是存在相互聯(lián)系的，通過圖，這些聯(lián)系都具有了一個統(tǒng)一，靈活，而又強大的數(shù)學(xué)抽象。因此，很多領(lǐng)域的學(xué)者都對圖有著深入探討，而且某個領(lǐng)域關(guān)于圖的研究成果，可以被其它領(lǐng)域借鑒。

矩陣表示：讓代數(shù)進入圖的世界

在數(shù)學(xué)上，一種被普遍使用的表達就是鄰接矩陣(Adjacency Matrix)。一個有N個節(jié)點的圖，可以用一個N x N的矩陣G表示，G(i, j)用一個值表示第i個節(jié)點和第j個節(jié)點的聯(lián)系，通常來說這個值越大它們關(guān)系越密切，這個值為0表示它們不存在直接聯(lián)系。這個表達，很直接，但是非常重要，因為它把數(shù)學(xué)上兩個非常根本的概念聯(lián)系在一起：“圖”(Graph)和“矩陣”(Matrix)。矩陣是代數(shù)學(xué)中最重要的概念，給了圖一個矩陣表達，就建立了用代數(shù)方法研究圖的途徑。數(shù)學(xué)家們幾十年前開始就看到了這一點，并且開創(chuàng)了數(shù)學(xué)上一個重要的分支——代數(shù)圖論(Algebraic Graph Theory)。

代數(shù)圖論通過圖的矩陣表達來研究圖。熟悉線性代數(shù)的朋友知道，代數(shù)中一個很重要的概念叫做“譜”(Spectrum)。一個矩陣的很多特性和它的譜結(jié)構(gòu)——就是它的特征值和特征向量是密切相關(guān)的。因此，當(dāng)我們獲得一個圖的矩陣表達之后，就可以通過研究這個矩陣的譜結(jié)構(gòu)來研究圖的特性。通常，我們會分析一個圖的鄰接矩陣(Adjacency Matrix)或者拉普拉斯矩陣(Laplace Matrix)的譜——這里多說一句，這兩種矩陣的譜結(jié)構(gòu)剛好是對稱的。

譜：“分而治之”的代數(shù)

譜，這個詞匯似乎在不少地方出現(xiàn)過，比如我們可能更多聽說的頻譜，光譜，等等。究竟什么叫“譜”呢？它的概念其實并不神秘，簡單地說，譜這個概念來自“分而治之”的策略。一個復(fù)雜的東西不好直接研究，就把它分解成簡單的分量。如果我們把一個東西看成是一些分量疊加而成，那么這些分量以及它們各自所占的比例，就叫這個東西的譜。所謂頻譜，就是把一個信號分解成多個頻率單一的分量。

矩陣的譜，就是它的特征值和特征向量，普通的線性代數(shù)課本會告訴你定義：如果A v = c v，那么c 就是A的特征值，v就叫特征向量。這僅僅是數(shù)學(xué)家發(fā)明的一種數(shù)學(xué)游戲么？——也許有些人剛學(xué)這個的時候，并一定能深入理解這么個公式代表什么。其實，這里的譜，還是代表了一種分量結(jié)構(gòu)，它為使用“分而治之”策略來研究矩陣的作用打開了一個重要途徑。這里我們可以把矩陣理解為一個操作(operator)，它的作用就是把一個向量變成另外一個向量：y = A x。對于某些向量，矩陣對它的作用很簡單，A v = cv，相當(dāng)于就把這個向量v 拉長了c倍。我們把這種和矩陣A能如此密切配合的向量v1, v2, ... 叫做特征向量，這個倍數(shù)c1, c2, ...叫特征值。那么來了一個新的向量x 的時候，我們就可以把x 分解為這些向量的組合，x = a1 v1 + a2 v2 + ...，那么A對x的作用就可以分解了：A x = A (a1 v1 + a2 v2 + ...) = a1 c1 v1 + a2 c2 v2 ... 所以，矩陣的譜就是用于分解一個矩陣的作用的。

這里再稍微延伸一點。一個向量可以看成一個關(guān)于整數(shù)的函數(shù)，就是輸入i，它返回v( i )。它可以延伸為一個連續(xù)函數(shù)（一個長度無限不可數(shù)的向量，呵呵），相應(yīng)的矩陣 A 變成一個二元連續(xù)函數(shù)（面積無限大的矩陣）。這時候矩陣乘法中的求和變成了積分。同樣的，A的作用可以理解為把一個連續(xù)函數(shù)映射為另外一個連續(xù)函數(shù)，這時候A不叫矩陣，通常被稱為算子。對于算子，上面的譜分析方法同樣適用（從有限到無限，在數(shù)學(xué)上還需要處理一下，不多說了）——這個就是泛函分析中的一個重要部分——譜論（Spectral Theory）。

馬爾可夫過程——從時間的角度理解圖

回到“圖”這個題目，那么圖的譜是干什么的呢？按照上面的理解，似乎是拿來分解一個圖的。這里譜的作用還是分治，但是，不是直觀的理解為把圖的大卸八塊，而是把要把在圖上運行的過程分解成簡單的過程的疊加。如果一個圖上每個節(jié)點都有一個值，那么在圖上運行的過程就是對這些值進行更新的過程。一個簡單，大家經(jīng)常使用的過程，就是馬爾可夫過程(Markov Process)。

學(xué)過隨機過程的朋友都了解馬爾可夫過程。概念很簡單——“將來只由現(xiàn)在決定，和過去無關(guān)”。考慮一個圖，圖上每個點有一個值，會被不斷更新。每個點通過一些邊連接到其它一些點上，對于每個點，這些邊的值都是正的，和為1。在圖上每次更新一個點的值，就是對和它相連接的點的值加權(quán)平均。如果圖是聯(lián)通并且非周期（數(shù)學(xué)上叫各態(tài)歷經(jīng)性, ergodicity)，那么這個過程最后會收斂到一個唯一穩(wěn)定的狀態(tài)（平衡狀態(tài))。

圖上的馬爾可夫更新過程，對于很多學(xué)科有著非常重要的意義。這種數(shù)學(xué)抽象，可以用在什么地方呢？(1) Google對搜索結(jié)果的評估(PageRank)原理上依賴于這個核心過程，(2) 統(tǒng)計中一種廣泛運用的采樣過程MCMC，其核心就是上述的轉(zhuǎn)移過程，(3) 物理上廣泛存在的擴散過程（比如熱擴散，流體擴散）和上面的過程有很重要的類比，(4) 網(wǎng)絡(luò)中的信息的某些歸納與交換過程和上述過程相同 (比如Random Gossiping)，還有很多。非常多的實際過程通過某種程度的簡化和近似，都可以歸結(jié)為上述過程。因此，對上面這個核心過程的研究，對于很多現(xiàn)象的理解有重要的意義。各個領(lǐng)域的科學(xué)家從本領(lǐng)域的角度出發(fā)研究這個過程，得出了很多實質(zhì)上一致的結(jié)論，并且很多都落在了圖的譜結(jié)構(gòu)的這個關(guān)鍵點上。

圖和譜在此聯(lián)姻

根據(jù)上面的定義，我們看到鄰接矩陣A其實就是這個馬爾可夫過程的轉(zhuǎn)移概率矩陣。我們把各個節(jié)點的值放在一起可以得到一個向量v，那么我們就可以獲得對這個過程的代數(shù)表示， v(t+1) = A v(t)。穩(wěn)定的時候，v = A v。我們可以看到穩(wěn)定狀態(tài)就是A的一個特征向量，特征值就是1。這里譜的概念進來了。我們把A的特征向量都列出來v1, v2, ...，它們有 A vi = ci vi。vi其實就是一種很特殊，但是很簡單的狀態(tài)，對它每進行一輪更新，所有節(jié)點的值就變成原來的ci倍。如果0 < ci < 1，那么，相當(dāng)于所有節(jié)點的值呈現(xiàn)指數(shù)衰減，直到大家都趨近于0。

一般情況下，我們開始于一個任意一個狀態(tài)u，它的更新過程就沒那么簡單了。我們用譜的方法來分析，把u分解成 u = v1 + c2 v2 + c3 v3 + ... （在數(shù)學(xué)上可以嚴格證明，對于上述的轉(zhuǎn)移概率矩陣，最大的特征值就是1，這里對應(yīng)于平衡狀態(tài)v1，其它的特征狀態(tài)v2, v3, ..., 對應(yīng)于特征值1 > c2 > c3 > ... > -1)。那么，我們可以看到，當(dāng)更新進行了t 步之后，狀態(tài)變成 u(t) = v1 + c2^t v2 + c3^t v3 + ...，我們看到，除了代表平衡狀態(tài)的分量保持不變外，其它分量隨著t 增長而指數(shù)衰減，最后，其它整個趨近于平衡狀態(tài)。

從上面的分析看到，這個過程的收斂速度，其實是和衰減得最慢的那個非平衡分量是密切相關(guān)的，它的衰減速度取決于第二大特征值c2，c2 的大小越接近于1，收斂越慢，越接近于0，收斂越快。這里，我們看到了譜的意義。第一，它幫助把一個圖上運行的馬爾可夫過程分解為多個簡單的字過程的疊加，這里面包含一個平衡過程和多個指數(shù)衰減的非平衡過程。第二，它指出平衡狀態(tài)是對應(yīng)于最大特征值1的分量，而收斂速度主要取決于第二大特征值。

我們這里知道了第二大特征值c2對于描述這個過程是個至關(guān)重要的量，究竟是越大越好，還是越小越好呢？這要看具體解決的問題。如果你要設(shè)計一個采樣過程或者更新過程，那么就要追求一個小的c2，它一方面提高過程的效率，另外一方面，使得圖的結(jié)構(gòu)改變的時候，能及時收斂，從而保證過程的穩(wěn) 定。而對于網(wǎng)絡(luò)而言，小的c2有利于信息的迅速擴散和傳播。

聚類結(jié)構(gòu)——從空間的角度理解圖

c2的大小往往取決于圖上的聚類結(jié)構(gòu)。如果圖上的點分成幾組，各自聚成一團，缺乏組與組之間的聯(lián)系，那么這種結(jié)構(gòu)是很不利于擴散的。在某些情況下，甚至需要O(exp(N))的時間才能收斂。這也符合我們的直觀想象，好比兩個大水缸，它們中間的只有一根很細的水管相連，那么就需要好長時間才能達到平衡。有興趣的朋友可以就這個水缸問題推導(dǎo)一下，這個水缸系統(tǒng)的第二大特征值和水管流量與水缸的容積的比例直接相關(guān)，隨比例增大而下降。

對于這個現(xiàn)象進行推廣，數(shù)學(xué)上有一個重要的模型叫導(dǎo)率模型(Conductance)。具體的公式不說了，大體思想是，節(jié)點集之間的導(dǎo) 通量和節(jié)點集大小的平均比例和第二大特征值之間存在一個單調(diào)的上下界關(guān)系。導(dǎo)率描述的是圖上的節(jié)點連接的空間結(jié)合，這個模型把第二特征值c2和圖的空間聚集結(jié)構(gòu)聯(lián)系在一起了。

圖上的聚類結(jié)構(gòu)越明顯， c2越大；反過來說，c2越大，聚類的結(jié)構(gòu)越明顯，(c2 = 1)時，整個圖就斷裂成非連通的兩塊或者多塊了。從這個意義上說，c2越大，越容易對這個圖上的點進行聚類。機器學(xué)習(xí)中一個重要課題叫做聚類，近十年來，基于代數(shù)圖論發(fā)展出來的一種新的聚類方法，就是利用了第二大特征值對應(yīng)的譜結(jié)構(gòu)，這種聚類方法叫做譜聚類(Spectral Clustering)。它在Computer Vision里面對應(yīng)于一種著名的圖像分割方法，叫做Normalized Cut。很多工作在使用這種方法。其實這種方法的成功，取決于c2的大小，也就是說取決于我們?nèi)绾螛?gòu)造出一個利于聚類的圖，另外c2的值本身也可以作為衡量聚類質(zhì)量，或者可聚類性的標(biāo)志。遺憾的是，在paper里面，使用此方法者眾，深入探討此方法的內(nèi)在特點者少。

歸納起來

圖是表達事物關(guān)系和傳遞擴散過程的重要數(shù)學(xué)抽象

圖的矩陣表達提供了使用代數(shù)方法研究圖的途徑

譜，作為一種重要的代數(shù)方法，其意義在于對復(fù)雜對象和過程進行分解

圖上的馬爾可夫更新過程是很多實際過程的一個重要抽象

圖的譜結(jié)構(gòu)的重要意義在于通過它對馬爾可夫更新過程進行分解分析

圖的第一特征值對應(yīng)于馬爾可夫過程的平衡狀態(tài)，第二特征值刻畫了這個過程的收斂速度（采樣的效率，擴散和傳播速度，網(wǎng)絡(luò)的穩(wěn)定程度）。

圖的第二特征分量與節(jié)點的聚類結(jié)構(gòu)密切相關(guān)。可以通過譜結(jié)構(gòu)來分析圖的聚類結(jié)構(gòu)。

馬爾可夫過程代表了一種時間結(jié)構(gòu)，聚類結(jié)構(gòu)代表了一種空間結(jié)構(gòu)，“譜”把它們聯(lián)系在一起了，在數(shù)學(xué)刻畫了這種時與空的深刻關(guān)系。

bneliao 2008-09-06 23:47 發(fā)表評論

How to get a solution?zz

bneliao — Sat, 06 Sep 2008 15:39:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2323.entry
4月10日

How to get a solution?

我們所做的topic，一般有幾個階段：

Analysis: 分析問題，找到問題的關(guān)鍵

Modeling / Formulation: 對問題進行數(shù)學(xué)抽象，建立模型，或者formulate目標(biāo)函數(shù)

Solving: 設(shè)計出求解的算法

Experiments: 實驗

最近的工作都集中在Solving這部分，就說說這個吧。

求解的方法

求解問題有很多不同的方法，就我知道的來說，大概有這么幾個大家族。

Heuristics。 就是根據(jù)對問題的觀察而設(shè) 計的一些簡單的方法，不一定遵循什么規(guī)范，或者有什么深刻的數(shù)學(xué)根據(jù)。這類方法往往比較簡單易懂，intuition比較明顯，很多時候 performance也挺不錯的，不見得比高深的方法差，因而在實際工程中很受歡迎，幾乎應(yīng)用在全部的學(xué)科。不過，好像很多朋友對這類方法頗為不屑，認為“沒有技術(shù)含量”，或者叫做“沒有理論深度”。

確實，有相當(dāng)部分的Heuristics純粹粗制濫造，投機取巧。不過，還有很多Heuristics雖然簡單，但是切中問題要害，在長期的復(fù)雜的實際應(yīng)用中經(jīng)受住了考驗。這些方法，表面看來可能只是再簡單不過的幾條四則運算公式，說不上多少理論，但是并不代表它沒有深刻的理論基礎(chǔ)。一個典型的例子是Google PageRank中使用的傳導(dǎo)公式（簡單版本），道理和公式都很簡單，可是，做過類似工作的朋友可能都知道，它和代數(shù)圖論以及馬爾可夫隨機過程有著很深的聯(lián)系。又比如，F(xiàn)ourier Transform在剛出來的時候，僅僅是工程師的一些heuristics，后來關(guān)于它的理論已經(jīng)成為了泛函分析的一個核心組成部分，也是信號處理的理論基礎(chǔ)之一。

真正好的heuristics，它的好處肯定不是瞎懵出來，而是有內(nèi)在原因的。對它們的原理的探索，不斷帶動理論方面的發(fā)展，甚至創(chuàng)造了新的理論方向。說到這里，有人可能會argue，這是“理論家們在故弄玄虛混飯吃”。Hmm，這種說法我不能認同，但是，確實存在“把工程方法胡亂進行理論化”的事實。什么才叫有價值的理論化，而不是故弄玄虛，確實值得思考，這里先不展開了。
Analytical Solution。 當(dāng)你把問題formulate出來后，有些情況是直接可以從問題推導(dǎo)出解析解的。這種情況通常存在于objective function是Linear或者Quadratic的情況。大家都很喜歡這種情況的出現(xiàn)，理論漂亮，實現(xiàn)簡潔。但是，據(jù)我的觀察，很多情況下，這種 elegance是通過減化模型換取的。把cost寫成quadratic term，把distribution假設(shè)為Gauss，很多時候都能得到這樣的結(jié)果。

我不反對進行簡化，也欣賞漂亮的analytical solution，如果它把問題解決得很好。但是，這里面有個問題，很多能獲得簡單解析解的問題已經(jīng)被做過了，剩下的很多難點，未必是一個簡化模型能有效解決的。簡化是一種很好的方法，但是，使用起來，尤其是在實際中的應(yīng)用必須慎重，要清楚了解它們可能帶來的問題。

比如說，很多模型喜歡使用差的平方來衡量誤差大小。但是，這很早就被指出是unrobust的，一個很大的deviation會 dominate整個optimization，使得solution嚴重偏離方向。如果這種robustness在帶解決的問題中是一個必須考慮的要素，那么用平方誤差就要仔細考慮了。
Numerical Optimization。 如果formulation沒有解析解，那么自然的想法就是使用數(shù)值方法求解。目前大家常用的是基于Gradient/Hessian之類的local optimization的方法，有時會加上random initialization。如果objective function是convex的，那么這種方法保證收斂到global optimal，這是大家很希望的。convex problem無論在formulation還是在solution的階段，都是很有學(xué)問的。很多問題可以formulate成convex的，但是未必都那么直接，這需要有這方面的基礎(chǔ)。Solving一個convex problem有現(xiàn)成的方法，但是，如果能對問題的結(jié)構(gòu)有insightful的觀察，可能能利用問題本身的特點大幅度降低求解的復(fù)雜度——這往往比直接把問題扔進solver里面等答案更有意義。

除了convex optimization，還有一種數(shù)值方法應(yīng)用非常廣泛，叫做coordinate ascend或者alternate optimization。大概的思路是，幾個有關(guān)的變量，輪流選擇某個去優(yōu)化，暫時固定其它的。在Machine Learning里面非常重要的Expectation-Maximization (EM算法)就屬于這個大家族。另外，很多復(fù)雜的graphical model采用的variational inference也是屬于此類。使用這類方法，有兩個問題：一個是如果幾個variable之間相互影響，變一個，其他跟著變的話，那么直接使用這種方法可能是錯誤的，并不能保證收斂。另外一個問題是，如果problem不是convex的話，可能沒有任何保證你得到的solution和global solution有聯(lián)系。很可能，你得到的解和真正的全局最優(yōu)解相差十萬八千里。這個沒有什么通用有效的途徑來解決。不過，針對具體問題的結(jié)構(gòu)特點，在求解過程中施加一定的引導(dǎo)是有可能的。
Dynamic Programming。 這個方法更多見于經(jīng)典計算機算法中，不過現(xiàn)在越來越多在Vision和Learning見到它的影子。主要思路是把大問題分解為小問題，總結(jié)小問題的 solution為大問題的solution。至于如何設(shè)計分解和綜合的過程，依賴于對問題的觀察和分析，并無通用的法則可循。用DP解決問題的洞察力需要逐步的積累。不少經(jīng)典算法就源自于DP，比如shotest path。一個可能有用的觀察是，如果問題或者模型呈現(xiàn)鏈狀，樹狀，或者有向無環(huán)圖結(jié)構(gòu)的，可能很有希望能通過DP高效解決。
Local Exchange。 很多建立在圖上的問題，都可以通過某種局部交換來達到全局的平衡。像Belief propagation, Junction tree等等在graphical model的重要inference方法，還有tranduction model，都用到了類似的策略。這在實踐中被證明為非常有效。但是，并不是隨便設(shè)計的局部交換過程都是收斂的。這里面需要關(guān)注兩個問題：(1)交換過程是不是能保證某些重要的invariance不被破壞；(2)交換過程中，是不是有一個objective，比如距離全局平衡的deviation，它在每一步都保持單調(diào)。有很多交換過程，在有向無環(huán)圖中保證收斂，但是，在帶環(huán)圖中由于信息的重復(fù)傳遞可能引起不穩(wěn)定，或者不能收斂到正確的解。
Monte Carlo Sampling。 蒙特卡羅采樣的原理非常簡單，就是用樣本平均，來逼近期望（這個可能需要用intractable的積分完成，沒法直接算）。求平均很簡單，關(guān)鍵在于采樣過程。我們求解問題，通常是在后驗分布中采樣，這種分布在大部分問題中，不要說直接采樣了，可能連解析形式都沒法給出。如果采樣問題有效解決了，基本上我們研究的大部分問題其實都可以通過采樣完成。

由于直接采樣往往非常困難，于是就產(chǎn)生了其它的方法，間接做這個事情。一種想法就是，既然p(x)不好直接采，我找一個比較容易采樣的 q(x)來逼近p(x)，然后給從q(x)采出的每個樣本加一個weight，p(x) / q(x)。這在理論上被嚴格證明是對的——這種方法叫做Importance Sampling。這里的問題在于，如果q(x)和p(x)不太接近，那么采樣效率非常低下，如果在一個高維空間，可能采1000年都達不到要求。可是，要得到一個approximate很好的q(x)本身不比直接從p(x)采樣來得容易。

還有一種聰明一點的方法，叫sequential importance sampling。在這里面q(x)，不是一蹴而就建立起來的，而是每個樣本先采一部分，然后根據(jù)那部分，確定下一部分的proposal distribution，繼續(xù)采，也就是說q(x)和樣本都是dynamically built up。這個方法在vision里面一個非常著名的應(yīng)用是用于tracking，相應(yīng)發(fā)展出來的方法論叫做particle filtering。

另外一大類重要的采樣方法，叫Markov Chain Monte Carlo(MCMC)。這個的想法是，設(shè)計一個馬爾科夫鏈，讓它的平衡分布恰好是p(x)，那么等它平衡時開始采。以前我們做隨機過程作業(yè)是已知一個 markov chain，求equilibrium distribution，設(shè)計MCMC就是反過來了。最重要的MCMC方法莫過于Metropolis-Hastings Algorithm和Gibbs Sampling，前者常被用于設(shè)計在solution space的隨機游走(Random walk)，后者則是conditional sampling的基礎(chǔ)方法。

可是Markov過程怎么轉(zhuǎn)移呢。最簡單的Random Walk結(jié)合acceptance rate之后理論上是對的。可是，讓sampler隨便亂走，猴年馬月才能把solution space走一遍阿。于是，有人提出結(jié)合一個solution space的局部信息來引導(dǎo)它往有用的方向走。一個重要的方法叫做Hybric Monte Carlo(HMC)，想法就是把它模擬成一個物理場，把要sample的分布視為波爾茲曼分布后獲得物理場的勢能，通過哈密頓動力學(xué)模型（其實就是牛頓力學(xué)的推廣）來驅(qū)動sampler。可是，如果問題更為復(fù)雜呢，比如整個solution space有幾個井，sample掉到某一個井可能出不來了。為了解決這個問題，一種重要的方法叫Tempering，就是開始給分子充分加熱，讓它獲得足夠的動能能在各個井之間來回跳，然后逐步冷卻，從而能捕捉到多個勢井。

Monte Carlo方法較早的時候主要用于統(tǒng)計物理，目前已經(jīng)廣泛應(yīng)用于計算機，生物，化學(xué)，地質(zhì)學(xué)，經(jīng)濟學(xué)，社會學(xué)等等的研究。這是目前所知道的用于求解復(fù)雜的真實模型的最有效的方法。它的核心，就是猜——你直接解不出來，只好猜了，呵呵。但是，怎樣才能猜得準(zhǔn)，則是大有學(xué)問——幾十年來各個領(lǐng)域關(guān)于Monte Carlo研究的工作汗牛充棟，有很多進展，但是還有很長的路要走。

和這里很多留學(xué)生一樣，我一向潛心于自己的學(xué)習(xí)和研究。可是最近，我們的世界并不寧靜，我認識的不只一個在美國的朋友受到了不太友好的挑釁——在不知不覺中，我們可能已經(jīng)身處反分裂和支持奧運的前線。我看到包括MIT CSSA在內(nèi)的很多學(xué)生團體開始組織起來支持自己的祖國。我沒有具體幫上什么，但是，我對所有在用自己的行動捍衛(wèi)國家榮譽的同胞懷有最深的敬意。我也希望，我的努力，能讓外國的朋友明白中國人是值得尊敬的。

bneliao 2008-09-06 23:39 發(fā)表評論

漫話距離zz

bneliao — Sat, 06 Sep 2008 09:38:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2069.entry
1月23日

漫話距離

我們的生活從來不缺乏距離的概念，無論是時間的還是空間的，可以測量的還是不可以測量的。自我們來到這個世界，就會用我們還很幼小的眼睛測量著自己和身邊的人的距離，然后跟著距離自己最近的人學(xué)叫“媽媽”；長大了，我們學(xué)會了用“距離產(chǎn)生美”這種不知道屬于公理還是定理的命題，提醒自己不要和心儀的mm走得太近；而垂垂老矣的人們則開始計算自己到生命終點的距離，盤算著什么時候該立遺囑了。

什么叫距離呢？隨便翻開一本數(shù)學(xué)教科書，你會發(fā) 現(xiàn)，這些書會在這個或者那個角落告訴你，所謂距離，就是一個符合對稱性和三角不等式的非負二元函數(shù)。為什么要符合對稱性和三角不等式呢——大部分的書會告訴你，這是規(guī)定——不符合的就不是距離。少部分負責(zé)任一些的書會告訴你，不符合這些條件的“距離”會多麻煩。于是你接受了。

當(dāng)你放下書本，回到我們多姿多彩的生活中的時候，這個呆板的定義似乎不能有效地解決你生活中的問題。你去hiking的時候，入口處告訴你，從山下到山上的距離是多少多少里路，按說上山和下山的距離是一樣的，可是當(dāng)你攀到山頂又走回來的時候，心里可能犯嘀咕，怎么感覺距離不一樣呢？偉大的數(shù)學(xué)家們是不會錯的。這是相對論！——那些費了半天勁才把洛侖茲變換搞明白的人們，生怕錯過了這個機會就沒有機會顯示自己深厚的物理底蘊了。不過，我只是相信一點，根據(jù)目前人類的進化水平，即使把世界短跑冠軍的運動速度和地球公轉(zhuǎn)自轉(zhuǎn)速度加起來再乘以10，離光速還遠著呢。

再說一個例子，不知道男同胞們是不是發(fā) 現(xiàn)，當(dāng)你想去接近你的夢中情人的時候，距離似乎遙不可及——走出太陽系似乎都沒有那么遠，反過來，當(dāng)她想接近你的時候，這個距離比任何預(yù)先給定的正實數(shù)都小——我有點懷疑，牛頓或者萊布尼茨當(dāng)年是不是有過類似體驗，才總結(jié)出了微機分——這告訴我們?yōu)槭裁次C分不是女生提出的。

為了能讓距離去解釋上面說到的現(xiàn)象，我們有必要把它的概念推廣一下，把對稱性去掉——很多情況下，我們甚至把三角不等式也去掉。一個著名的例子，就是 Kullback-Leibler divergence——用來描述兩個分布的“距離”。大家注意了，這里定義這個的人很聰明，為了不和數(shù)學(xué)家作對，他選擇叫做divergence，而不是distance。不過，很多信息論和統(tǒng)計學(xué)的書都猶抱琵琶半遮面地告訴我們，其實可以把它YY成為某種距離。伴隨著對稱性的喪失，距離的方向性出現(xiàn) 了。就是說從a到b的距離，和從b到a的距離是不一樣的——恩，這種推廣看起來很適合用來計算你和你心儀的人的距離，或者山頂和山腳的距離。

小學(xué)老師告訴我們怎么去量度兩個點之間的距離，就是拿一把尺子。可是，很多時候，你沒有機會使用直尺的。你所能做的就是從這點走到那點，看看費了多少勁—— 這就是我們大多數(shù)人在生活經(jīng)驗中的距離。黎曼老先生，作為理論聯(lián)系實際的代表，第一次從在數(shù)學(xué)上總結(jié)了這種生活上的距離——geodesic distance，中文叫做測地距離。它是怎么算距離的呢？就是從起點出發(fā)，一步步走向目標(biāo)，然后把每一步費了多少勁加起來。至于，每一步費了多少勁怎么算，大家都可以有不同的算法——但是，這些都叫Riemann Metric。為了大家計算距離時的身體健康，鼓勵大家節(jié)省能源，規(guī)定，只有按照最省事的方法到達目標(biāo)，這樣算出來的才叫距離。不過，在很多實際應(yīng)用中，大家只能找到比較省事的方法，未必是“最省的”，也睜一只眼閉一只眼，把算出來的東西追加“距離”的光榮稱號。

打破對稱性的千年枷鎖，扔掉直尺這種陳腐工具，人們獲得了空前的思想解放。男生和女生們開始附庸風(fēng)雅地用曾經(jīng)只存在于象牙塔的概念——距離——去評價自己和她或者他的關(guān)系。如何評價，見仁見智——在我看來，很多人的metric里面不外乎寫了多少情書，給電信公司貢獻了多少短信費，qq/msn在線了多少時間，又或者吃了多少頓麥當(dāng)勞。。。。。。在這個定義的基礎(chǔ)上，“距離產(chǎn)生美”——這個掛在多少人口頭的箴言橫空出世了。根據(jù)距離就是費了多少勁的意思，這句話告訴我們，只有費了很多功夫，死了無數(shù)腦細胞，才能得到，或者還得不到的才是美的；信手而獲，不需要追求的，就談不上美了。從這個意義上說，這句話和高中的學(xué)到的“勞動產(chǎn)生價值”的道理是一樣的，只不過，“勞動產(chǎn)生價值”是物質(zhì)層次的——太俗了，“距離產(chǎn)生美”是精神層次的，檔次和格調(diào)顯然不一樣。

bneliao 2008-09-06 17:38 發(fā)表評論

學(xué)習(xí)數(shù)學(xué)zz

bneliao — Sat, 06 Sep 2008 09:34:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!1911.entry
1月9日

學(xué)習(xí)數(shù)學(xué)

感覺數(shù)學(xué)似乎總是不夠的。這些日子為了解決research中的一些問題，又在圖書館捧起了數(shù)學(xué)的教科書。

從大學(xué)到現(xiàn)在，課堂上學(xué)的和自學(xué)的數(shù)學(xué)其實不算少了，可是在研究的過程中總是發(fā)現(xiàn)需要補充新的數(shù)學(xué)知識。Learning和Vision都是很多種數(shù)學(xué)的交匯場。看著不同的理論體系的交匯，對于一個researcher來說，往往是非常exciting的enjoyable的事情。不過，這也代表著要充分了解這個領(lǐng)域并且取得有意義的進展是很艱苦的。

記得在兩年前的一次blog里面，提到過和learning有關(guān)的數(shù)學(xué)。今天看來，我對于數(shù)學(xué)在這個領(lǐng)域的作用有了新的思考。

對于Learning的研究，

Linear Algebra (線性代數(shù)) 和 Statistics (統(tǒng)計學(xué)) 是最重要和不可缺少的。這代表了Machine Learning中最主流的兩大類方法的基礎(chǔ)。一種是以研究函數(shù)和變換為重點的代數(shù)方法，比如Dimension reduction，feature extraction，Kernel等，一種是以研究統(tǒng)計模型和樣本分布為重點的統(tǒng)計方法，比如Graphical model, Information theoretical models等。它們側(cè)重雖有不同，但是常常是共同使用的，對于代數(shù)方法，往往需要統(tǒng)計上的解釋，對于統(tǒng)計模型，其具體計算則需要代數(shù)的幫助。

以代數(shù)和統(tǒng)計為出發(fā)點，繼續(xù)往深處走，我們會發(fā)現(xiàn)需要更多的數(shù)學(xué)。

Calculus (微積分)，只是數(shù)學(xué)分析體系的基礎(chǔ)。其基礎(chǔ)性作用不言而喻。Learning研究的大部分問題是在連續(xù)的度量空間進行的，無論代數(shù)還是統(tǒng)計，在研究優(yōu)化問題的時候，對一個映射的微分或者梯度的分析總是不可避免。而在統(tǒng)計學(xué)中，Marginalization和積分更是密不可分——不過，以解析形式把積分導(dǎo)出來的情況則不多見。

Partial Differential Equation （偏微分方程)，這主要用于描述動態(tài)過程，或者仿動態(tài)過程。這個學(xué)科在Vision中用得比Learning多，主要用于描述連續(xù)場的運動或者擴散過程。比如Level set, Optical flow都是這方面的典型例子。

Functional Analysis (泛函分析)，通俗地，可以理解為微積分從有限維空間到無限維空間的拓展——當(dāng)然了，它實際上遠不止于此。在這個地方，函數(shù)以及其所作用的對象之間存在的對偶關(guān)系扮演了非常重要的角色。Learning發(fā)展至今，也在向無限維延伸——從研究有限維向量的問題到以無限維的函數(shù)為研究對象。Kernel Learning 和 Gaussian Process 是其中典型的例子——其中的核心概念都是Kernel。很多做Learning的人把Kernel簡單理解為Kernel trick的運用，這就把kernel的意義嚴重弱化了。在泛函里面，Kernel (Inner Product) 是建立整個博大的代數(shù)體系的根本，從metric, transform到spectrum都根源于此。

Measure Theory (測度理論)，這是和實分析關(guān)系非常密切的學(xué)科。但是測度理論并不限于此。從某種意義上說，Real Analysis可以從Lebesgue Measure（勒貝格測度）推演，不過其實還有很多別的測度體系——概率本身就是一種測度。測度理論對于Learning的意義是根本的，現(xiàn)代統(tǒng)計學(xué)整個就是建立在測度理論的基礎(chǔ)之上——雖然初級的概率論教科書一般不這樣引入。在看一些統(tǒng)計方面的文章的時候，你可能會發(fā)現(xiàn)，它們會把統(tǒng)計的公式改用測度來表達，這樣做有兩個好處：所有的推導(dǎo)和結(jié)論不用分別給連續(xù)分布和離散分布各自寫一遍了，這兩種東西都可以用同一的測度形式表達：連續(xù)分布的積分基于 Lebesgue測度，離散分布的求和基于計數(shù)測度，而且還能推廣到那種既不連續(xù)又不離散的分布中去（這種東西不是數(shù)學(xué)家的游戲，而是已經(jīng)在實用的東西，在Dirchlet Process或者Pitman-Yor Process里面會經(jīng)常看到)。而且，即使是連續(xù)積分，如果不是在歐氏空間進行，而是在更一般的拓撲空間（比如微分流形或者變換群），那么傳統(tǒng)的黎曼積分（就是大學(xué)一年級在微積分課學(xué)的那種）就不work了，你可能需要它們的一些推廣，比如Haar Measure或者Lebesgue-Stieltjes積分。

Topology（拓撲學(xué))，這是學(xué)術(shù)中很基礎(chǔ)的學(xué)科。它一般不直接提供方法，但是它的很多概念和定理是其它數(shù)學(xué)分支的基石。看很多別的數(shù)學(xué)的時候，你會經(jīng)常接觸這樣一些概念：Open set / Closed set，set basis，Hausdauf, continuous function，metric space, Cauchy sequence, neighborhood, compactness, connectivity。很多這些也許在大學(xué)一年級就學(xué)習(xí)過一些，當(dāng)時是基于極限的概念獲得的。如果，看過拓撲學(xué)之后，對這些概念的認識會有根本性的拓展。比如，連續(xù)函數(shù)，當(dāng)時是由epison法定義的，就是無論取多小的正數(shù)epsilon，都存在xxx，使得xxx。這是需要一種metric去度量距離的，在general topology里面，對于連續(xù)函數(shù)的定義連坐標(biāo)和距離都不需要——如果一個映射使得開集的原像是開集，它就是連續(xù)的——至于開集是基于集合論定義的，不是通常的開區(qū)間的意思。這只是最簡單的例子。當(dāng)然，我們研究learning也許不需要深究這些數(shù)學(xué)概念背后的公理體系，但是，打破原來定義的概念的局限在很多問題上是必須的——尤其是當(dāng)你研究的東西它不是在歐氏空間里面的時候——正交矩陣，變換群，流形，概率分布的空間，都屬于此。

Differential Manifold (微分流形)，通俗地說它研究的是平滑的曲面。一個直接的印象是它是不是可以用來fitting一個surface什么的——當(dāng)然這算是一種應(yīng)用，但是這是非常初步的。本質(zhì)上說，微分流形研究的是平滑的拓撲結(jié)構(gòu)。一個空間構(gòu)成微分流形的基本要素是局部平滑：從拓撲學(xué)來理解，就是它的任意局部都同胚于歐氏空間，從解析的角度來看，就是相容的局部坐標(biāo)系統(tǒng)。當(dāng)然，在全局上，它不要求和歐氏空間同胚。它除了可以用于刻畫集合上的平滑曲面外，更重要的意義在于，它可以用于研究很多重要的集合。一個n-維線性空間的全部k-維子空間(k < n)就構(gòu)成了一個微分流形——著名的Grassman Manifold。所有的標(biāo)準(zhǔn)正交陣也構(gòu)成一個流形。一個變換群作用于一個空間形成的軌跡(Orbit) 也是通常會形成流形。在流形上，各種的分析方法，比如映射，微分，積分都被移植過來了。前一兩年在Learning里面火了好長時間的Manifold Learning其實只是研究了這個分支的其中一個概念的應(yīng)用: embedding。其實，它還有很多可以發(fā)掘的空間。

Lie Group Theory (李群論)，一般意義的群論在Learning中被運用的不是很多，群論在Learning中用得較多的是它的一個重要方向Lie group。定義在平滑流行上的群，并且其群運算是平滑的話，那么這就叫李群。因為Learning和編碼不同，更多關(guān)注的是連續(xù)空間，因為Lie group在各種群中對于Learning特別重要。各種子空間，線性變換，非奇異矩陣都基于通常意義的矩陣乘法構(gòu)成李群。在李群中的映射，變換，度量，劃分等等都對于Learning中代數(shù)方法的研究有重要指導(dǎo)意義。

Graph Theory（圖論)，圖，由于它在表述各種關(guān)系的強大能力以及優(yōu)雅的理論，高效的算法，越來越受到Learning領(lǐng)域的歡迎。經(jīng)典圖論，在Learning中的一個最重要應(yīng)用就是graphical models了，它被成功運用于分析統(tǒng)計網(wǎng)絡(luò)的結(jié)構(gòu)和規(guī)劃統(tǒng)計推斷的流程。Graphical model所取得的成功，圖論可謂功不可沒。在Vision里面，maxflow (graphcut)算法在圖像分割，Stereo還有各種能量優(yōu)化中也廣受應(yīng)用。另外一個重要的圖論分支就是Algebraic graph theory (代數(shù)圖論)，主要運用于圖的譜分析，著名的應(yīng)用包括Normalized Cut和Spectral Clustering。近年來在semi-supervised learning中受到特別關(guān)注。

bneliao 2008-09-06 17:34 發(fā)表評論

關(guān)于平均值zz

bneliao — Sat, 06 Sep 2008 09:06:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2078.entry
1月27日

關(guān)于平均值

小時候，老師就告訴我們，讀書講究先由薄而厚，再由厚而薄。前者是吸收和積累，后者是融會和消化。

這些年，讀了不少關(guān)于統(tǒng)計學(xué)習(xí)的東西，很多東西都記不清楚了。從我自己的角度看來（可能是很膚淺的），學(xué)概率和統(tǒng)計，關(guān)鍵是記住三個概念：測度(measure)，期望(expectation)，和獨立性(independence)。

測度是現(xiàn)代概率理論的基石。在經(jīng)典的概率論里面——比如我們在本科學(xué)的那些——大多是通過舉例子和文字說明的方式告訴你概率是什么，這容易明白，不過缺乏嚴密的公理化根基。現(xiàn)代概率論整個建立在測度理論的基礎(chǔ)上，概率的定義非常簡單，不過也很抽象——所謂“概率”，就是歸一化的測度。沒有測度，就沒有整個概率論的大廈，所以它很重要——不過，它在實用中直接用上的機會不大，所以不是這篇文章的主體。關(guān)于獨立性，以及它的一個孿生的名詞：Markov，也扮演著非常重要的角色，它是Graphical models的基礎(chǔ)。有興趣的可以去讀M. I. Jordan的書。

而在統(tǒng)計學(xué)習(xí)的實際應(yīng)用中，就是你平時寫code，用得最多的就是期望，或者一個通俗點的版本——平均值。其實這兩者不太一樣，期望是從model出發(fā)演繹的，平均值通常是指從data出發(fā)歸納的。不過它們的關(guān)系確實非常密切。

統(tǒng)計學(xué)習(xí)在很多情況下，就是求平均值

我們平常說去Learn一個model——其實，在很多情況下，這就是干一件聽上去很簡單的事情，求平均值。我們知道，我們所接觸的大部分重要的概率分布，都屬于exponential family，比如Gauss, Binomial, Multinomial, Dirichlet, Poisson, Exponential, Gamma等等分布都屬于這個家族。它的一個重要特點就是——得期望者得天下。就是說，知道了某些統(tǒng)計量的期望，就知道了整個model，至于model 的參數(shù)，或者就是期望本身（比如Gauss)，或者不難從期望中得到。可以證明，對于這些model，對它們的最大似然估計(Maximum Likelihood estimation)，就是從data中算出某些統(tǒng)計量的平均值作為model的期望。

在Bayes學(xué)習(xí)中，我們還考慮先驗分布(prior)。在這里，model的估計還是求平均值。所謂prior是怎么來的？就是以前曾經(jīng)觀察過的data那里總結(jié)得到的，然后以prior的形式影響當(dāng)前的model估計。一般而言，使用exponential family，我們通常會使用conjugate prior，這種prior，基本就是沿著剛才說的，假想我們已經(jīng)看過一些data的思路得到的，它的形式和data mean幾乎如出一轍。而帶了prior的估計，還是在求平均值，不過這里的平均值就是（假想）以前觀察過的數(shù)據(jù)和當(dāng)前的數(shù)據(jù)合在一起求平均。

對于更加復(fù)雜的Graphical model，每個節(jié)點的estimate和update，很多時候，其實是做了這樣的事情——把其它節(jié)點傳來的平均值和這個節(jié)點接觸的數(shù)據(jù)的平均值混合進行新的平均。從最簡單的Gauss, 到更加復(fù)雜的Gaussian Mixture Model, Latent Dirichlet Allocation, Markov Random Field, Generalized Kalman Filtering概莫能外——大家可以仔細看看它們的每一個update公式，看看哪個不是在求平均值。

怎樣求平均值

平均值是很重要的。不過怎么求呢？這似乎是小學(xué)初中就解決了的問題。不過，求平均值的世界其實是如此博大精深。如果說它是少林武學(xué)，我現(xiàn)在這點水平，也就夠在嵩山下掃掃地罷了。很多在世界上赫赫有名的數(shù)學(xué)家，窮畢生心血，方能一窺堂奧。

雖然，只有掃地的水平，不過起碼也看過大師們練武。這門學(xué)問主要有兩個方面：得到data求平均值，得到model求期望。

先說說求data的平均值。這太簡單了，有什么好說的。不就是加法和乘法么，小學(xué)學(xué)過算術(shù)的人都會算，即使沒學(xué)過，拿個計算器也照樣算。在通常的實數(shù)空間內(nèi)，確實很簡單；不過對于一般的求平均值的情況，就非常非常困難了。一般來說，求平均值有兩個流派，一種是基于線性代數(shù)(linear algebra)，另外一種是基于度量空間(metric space)。前面一種大家很熟悉：

m = (x1 + x2 + ... + xn) * (1/n)。

這是我們讀了這么多年書最常見的平均值。不過，這樣定義太局限了，它要求這些東西能做加法和數(shù)乘——我不得不說，這個要求實在太高，只有線性空間（這種空間是數(shù)學(xué)里面的貴族，它們什么好處都全了）能夠滿足——對于數(shù)學(xué)領(lǐng)域更廣大的人民群眾（各種更一般的數(shù)學(xué)結(jié)構(gòu)，比如群，拓撲流形），加法和數(shù)乘簡直是一種奢侈得不切實際的活動。

其實平均值是一個非常廣泛的概念，不僅僅存在于線性空間中，還為廣大人民群眾服務(wù)。對于某個度量空間，它的一般性定義是這么給出的

使得 d(m, x1) + d(m, x2) + ... + d(m, xn) 最小的那個m

也就是說，求平均值是一個優(yōu)化問題。關(guān)于這個問題，在不同的空間中有不同的答案：在最高級的希爾伯特空間中（定義了內(nèi)積的完備線性空間），m就是上面給出的基于線性代數(shù)的形式。所以說，基于線性代數(shù)的定義僅僅是基于度量空間的定義的一個特例。不過由于這個特例被廣泛使用，所以大家一說平均值就想起它，而不是一般形式。在推廣一些的巴拿赫空間中（定義了范數(shù)的完備線性空間），上述的問題是一個凸優(yōu)化問題，因為范數(shù)必然是凸函數(shù)。它具有唯一的最優(yōu)解。

最困難的是在非線性空間中。一個典型的例子是黎曼流形（注意，這里我們只討論黎曼流形，對于更為一般的拓撲流形或者微分流形，因為不具有度量結(jié)構(gòu)，所以不能定義均值。）在黎曼流形上，兩點間的距離是通過測地距離給出的。在黎曼流形上，通過測地距離定義的平均值，叫做黎曼中心。一部分朋友對于這幾個術(shù)語可能不太熟悉，還是舉個形象點的例子。比如，在地球上給出幾個地點，你要在地面上找一個“平均地點”，使得它到那幾個地點的“地面距離”的平方和最小。如果，用傳統(tǒng)的算術(shù)方法拿這些地點的三維坐標(biāo)來算，你估計得在那鉆個油井了。對于“球面平均”問題（專門一點的說法叫做特殊正交群SO(3)的黎曼中心，恩，這個名詞我也有點暈），到了在本世紀，在數(shù)學(xué)里依舊可以發(fā)paper，目前還沒有一般情況下的解析解。

別的領(lǐng)域我不懂，不過“球面平均”在vision里面價值是很大的，它是對三維旋轉(zhuǎn)變換建立統(tǒng)計模型的基礎(chǔ)——我們再一次看到了求平均值對于統(tǒng)計的重要意義。球面平均求的是“平均”的旋轉(zhuǎn)，如果對于一般的仿射變換(Affiine transform)，“平均”的變換又怎么求呢？這是個open problem，留待大家思考。

怎樣求期望

說完從data求平均值，再說說從model得到期望(expectation)——這們學(xué)問就更博大了。雖然，期望的定義很簡單——求和或者積分就行了。不過，它的實際計算，對于很多實際模型是intractable的。

概率論最早源于擲色子，我們的前輩數(shù)學(xué)家們?yōu)榱似平馇髲?fù)雜模型求期望的問題，提出的方法就是擲色子。在學(xué)術(shù)上，美其名曰“蒙特卡羅方法”(Monte Carlo)。原理很簡單，不斷地擲色子來大量采樣，然后從采來的樣本求平均值來逼近模型的期望。

擲色子是世界上最有學(xué)問的之一，正因為如此，我們對于“賭神”，“賭王”之類的人物崇拜猶如滔滔江水，因為它們擲色子擲得好。無數(shù)的統(tǒng)計學(xué)家把畢生經(jīng)歷奉獻給擲色子（采樣）事業(yè)，并且做出偉大成就。關(guān)于采樣的專著和文獻，汗牛充棟。

擲色子就這么難么？是的。據(jù)估算，即使對于一個復(fù)雜度不高的model，要得到一個可以接受的估計，所需的樣本量往往大得驚人，而且指數(shù)增長。如果不掌握要領(lǐng)，你即使擲到宇宙末日，估計離一個靠譜的估計還遠著呢。采樣技術(shù)名目繁多，最流行的莫過于重要性采樣(importance sampling)和馬爾科夫鏈蒙特卡羅過程(MCMC)。具體就不多說了。

bneliao 2008-09-06 17:06 發(fā)表評論

Learning中的代數(shù)結(jié)構(gòu)的建立zz

bneliao — Sat, 06 Sep 2008 09:04:00 GMT

http://dahua.spaces.live.com/blog/cns!28AF4251DF30CA42!2489.entry

7月9日

Learning中的代數(shù)結(jié)構(gòu)的建立

Learning是一個融會多種數(shù)學(xué)于一體的領(lǐng)域。說起與此有關(guān)的數(shù)學(xué)學(xué)科，我們可能會迅速聯(lián)想到線性代數(shù)以及建立在向量空間基礎(chǔ)上的統(tǒng)計模型——事實上，主流的論文中確實在很大程度上基于它們。

R^n (n-維實向量空間) 是我們在paper中見到最多的空間，它確實非常重要和實用，但是，僅僅依靠它來描述我們的世界并不足夠。事實上，數(shù)學(xué)家們給我們提供了豐富得多的工具。

“空間”(space)，這是一個很有意思的名詞，幾乎出現(xiàn)在所有的數(shù)學(xué)分支的基礎(chǔ)定義之中。歸納起來，所謂空間就是指一個集合以及在上面定義的某種數(shù)學(xué)結(jié)構(gòu)。關(guān)于這個數(shù)學(xué)結(jié)構(gòu)的定義或者公理，就成為這個數(shù)學(xué)分支的基礎(chǔ)，一切由此而展開。

還是從我們最熟悉的空間——R^n 說起吧。大家平常使用這個空間的時候，除了線性運算，其實還用到了別的數(shù)學(xué)結(jié)構(gòu)，包括度量結(jié)構(gòu)和內(nèi)積結(jié)構(gòu)。

第一，它是一個拓撲空間(Topological space)。而且從拓撲學(xué)的角度看，具有非常優(yōu)良的性質(zhì)：Normal (implying Hausdorff and Regular), Locally Compact, Paracompact, with Countable basis, Simply connected (implying connected and path connected), Metrizable.

第二，它是一個度量空間(Metric space)。我們可以計算上面任意兩點的距離。

第三，它是一個有限維向量空間(Finite dimensional space)。因此，我們可以對里面的元素進行代數(shù)運算（加法和數(shù)乘），我們還可以賦予它一組有限的基，從而可以用有限維坐標(biāo)表達每個元素。

第四，基于度量結(jié)構(gòu)和線性運算結(jié)構(gòu)，可以建立起分析(Analysis)體系。我們可以對連續(xù)函數(shù)進行微分，積分，建立和求解微分方程，以及進行傅立葉變換和小波分析。

第五，它是一個希爾伯特空間（也就是完備的內(nèi)積空間）(Hilbert space, Complete inner product space)。它有一套很方便計算的內(nèi)積(inner product)結(jié)構(gòu)——這個空間的度量結(jié)構(gòu)其實就是從其內(nèi)積結(jié)構(gòu)誘導(dǎo)出來。更重要的，它是完備的(Complete)——代表任何一個柯西序列 (Cauchy sequence)都有極限——很多人有意無意中其實用到了這個特性，不過習(xí)慣性地認為是理所當(dāng)然了。

第六，它上面的線性映射構(gòu)成的算子空間仍舊是有限維的——一個非常重要的好處就是，所有的線性映射都可以用矩陣唯一表示。特別的，因為它是有限維完備空間，它的泛函空間和它本身是同構(gòu)的，也是R^n。因而，它們的譜結(jié)構(gòu)，也就可以通過矩陣的特征值和特征向量獲得。

第七，它是一個測度空間——可以計算子集的大小（面積/體積）。正因為此，我們才可能在上面建立概率分布(distribution)——這是我們接觸的絕大多數(shù)連續(xù)統(tǒng)計模型的基礎(chǔ)。

我們可以看到，這是一個非常完美的空間，為我們的應(yīng)用在數(shù)學(xué)上提供了一切的方便，在上面，我們可以理所當(dāng)然地認為它具有我們希望的各種良好性質(zhì)，而無須特別的證明；我們可以直接使用它的各種運算結(jié)構(gòu)，而不需要從頭建立；而且很多本來不一樣的概念在這里變成等價的了，我們因此不再需要辨明它們的區(qū)別。

以此為界，Learning的主要工作分成兩個大的范疇：

建立一種表達形式，讓它處于上面討論的R^n空間里面。
獲得了有限維向量表達后，建立各種代數(shù)算法或者統(tǒng)計模型進行分析和處理。

這里只討論第一個范疇。先看看，目前用得比較廣泛的一些方法：

直接基于原始數(shù)據(jù)建立表達。我們關(guān)心的最終目標(biāo)是一個個現(xiàn)實世界中的對象：一幅圖片，一段語音，一篇文章，一條交易記錄，等等。這些東西大部分本身沒有附著一個數(shù)值向量的。為了構(gòu)造一個向量表達，我們可以把傳感器中記錄的數(shù)值，或者別的什么方式收集的數(shù)值數(shù)據(jù)按照一定的順序羅列出來，就形成一個向量了。如果有n個數(shù)字，就認為它們在R^n里面。

不過，這在數(shù)學(xué)上有一點小問題，在大部分情況下，根據(jù)數(shù)據(jù)產(chǎn)生的物理原理，這些向量的值域并不能充滿整個空間。比如圖像的像素值一般是正值，而且在一個有界閉集之中。這帶來的問題是，對它們進行線性運算很可能得到的結(jié)果會溢出正常的范圍——在大部分 paper中，可能只是采用某些heuristics的手段進行簡單處理，或者根本不管，很少見到在數(shù)學(xué)上對此進行深入探討的——不過如果能解決實際問題，這也是無可厚非的，畢竟不是所有的工作都需要像純數(shù)學(xué)那樣追求嚴謹。

量化(quantization)。這是在處理連續(xù)信號時被廣泛采用的方式。只是習(xí)以為常，一般不提名字而已。比如一個空間信號（Vision中的image）或者時間信號，它們的domain 中的值是不可數(shù)無限大的(uncountably infinite)，不要說表示為有限維向量，即使表達為無限序列也是不可能的。在這種情況下，一般在有限域內(nèi)，按照一定順序每隔一定距離取一個點來代表其周圍的點，從而形成有限維的表達。這就是信號在時域或空域的量化。

這樣做不可避免要丟失信息。但是，由于小鄰域內(nèi)信號的高度相關(guān)，信息丟失的程度往往并不顯著。而且，從理論上說，這相當(dāng)于在頻域中的低通過率。對于有限能量的連續(xù)信號，不可能在無限高的頻域中依然保持足夠的強度，只要采樣密度足夠，丟失的東西可以任意的少。

除了表示信號，對于幾何形體的表達也經(jīng)常使用量化，比如表示curve和surface。

找出有限個數(shù)充分表達一個對象也許不是最困難的。不過,在其上面建立數(shù)學(xué)結(jié)構(gòu)卻未必了。一般來說，我們要對其進行處理，首先需要一個拓撲結(jié)構(gòu)用以描述空間上的點是如何聯(lián)系在一起。直接建立拓撲結(jié)構(gòu)在數(shù)學(xué)上往往非常困難，也未必實用。因此，絕大部分工作采取的方式是首先建立度量結(jié)構(gòu)。一個度量空間，其度量會自然地誘導(dǎo)出一個拓撲結(jié)構(gòu)——不過，很多情況下我們似乎會無視它的存在。

最簡單的情況，就是使用原始向量表達的歐氏距離 (Euclidean distance)作為metric。不過，由于原始表達數(shù)值的不同特性，這種方式效果一般不是特別好，未必能有效表達實際對象的相似性（或者不相似性）。因此，很多工作會有再此基礎(chǔ)上進行度量的二次建立。方式是多種多樣的，一種是尋求一個映射，把原空間的元素變換到一個新的空間，在那里歐氏距離變得更加合適。這個映射發(fā)揮的作用包括對信息進行篩選，整合，對某些部分進行加強或者抑制。這就是大部分關(guān)于feature selection，feature extraction，或者subspace learning的文章所要做的。另外一種方式，就是直接調(diào)節(jié)距離的計算方式（有些文章稱之為metric learning）。

這兩種方式未必是不同的。如果映射是單射，那么它相當(dāng)于在原空間建立了一個不同的度量。反過來，通過改變距離計算方式建立的度量在特定的條件下對應(yīng)于某種映射。

大家可能注意到，上面提到的度量建立方法，比如歐氏距離，它需要對元素進行代數(shù)運算。對于普通的向量空間，線性運算是天然賦予的，我們無須專門建立，所以可以直接進行度量的構(gòu)造——這也是大部分工作的基礎(chǔ)。可是，有些事物其原始表達不是一個n-tuple，它可能是一個set，一個graph，或者別的什么特別的object。怎么建立代數(shù)運算呢？

一種方法是直接建立。就是給這些東西定義自己的加法和數(shù)乘。這往往不是那么直接（能很容易建立的線性運算結(jié)構(gòu)早已經(jīng)被建立好并廣泛應(yīng)用了），可能需要涉及很深的數(shù)學(xué)知識，并且要有對問題本身的深入了解和數(shù)學(xué)上的洞察力。不過，一個新的代數(shù)結(jié)構(gòu)一旦建立起來，其它的數(shù)學(xué)結(jié)構(gòu)，包括拓撲，度量，分析，以及內(nèi)積結(jié)構(gòu)也隨之能被自然地誘導(dǎo)出來，我們也就具有了對這個對象空間進行各種數(shù)學(xué)運算和操作的基礎(chǔ)。加法和數(shù)乘看上去簡單，但是如果我們對于本來不知道如何進行加法和數(shù)乘的空間建立了這兩樣?xùn)|西，其理論上的貢獻是非常大的。

（一個小問題：大家常用各種graphical model，但是，每次這些model都是分別formulate，然后推導(dǎo)出estimation和evaluation的步驟方法。是否可能對"the space of graphical model"或者它的某個特定子集建立某種代數(shù)結(jié)構(gòu)呢？（不一定是線性空間，比如群，環(huán)，廣群， etc）從而使得它們在代數(shù)意義上統(tǒng)一起來，而相應(yīng)的estimation或者evaluation也可以用過代數(shù)運算derive。這不是我的研究范圍，也超出了我目前的能力和知識水平，只是我相信它在理論上的重要意義，留作一個遠景的問題。事實上，數(shù)學(xué)中確實有一個分支叫做 Algebraic statistics 可能在探討類似的問題，不過我現(xiàn)在對此了解非常有限。）

回到我們的正題，除了直接建立運算定義，另外一種方式就是嵌入(embedding)到某個向量空間，從而繼承其運算結(jié)構(gòu)為我所用。當(dāng)然這種嵌入也不是亂來，它需要保持原來這些對象的某種關(guān)系。最常見的就是保距嵌入(isometric embedding)，我們首先建立度量結(jié)構(gòu)（繞過向量表達，直接對兩個對象的距離通過某種方法進行計算），然后把這個空間嵌入到目標(biāo)空間，通常是有限維向量空間，要求保持度量不變。

“嵌入”是一種在數(shù)學(xué)上應(yīng)用廣泛的手段，其主要目標(biāo)就是通過嵌入到一個屬性良好，結(jié)構(gòu)豐富的空間，從而利用其某種結(jié)構(gòu)或者運算體系。在拓撲學(xué)中，嵌入到metric space是對某個拓撲空間建立度量的重要手段。而在這里，我們是已有度量的情況下，通過嵌入獲取線性運算的結(jié)構(gòu)。除此以來，還有一種就是前些年比較熱的 manifold embedding，這個是通過保持局部結(jié)構(gòu)的嵌入，獲取全局結(jié)構(gòu)，后面還會提到。

接下來的一個重要的代數(shù)結(jié)構(gòu)，就是內(nèi)積(inner product)結(jié)構(gòu)。內(nèi)積結(jié)構(gòu)一旦建立，會直接誘導(dǎo)出一種性質(zhì)良好的度量，就是范數(shù)(norm)，并且進而誘導(dǎo)出拓撲結(jié)構(gòu)。一般來說，內(nèi)積需要建立在線性空間的基礎(chǔ)上，否則連一個二元運算是否是內(nèi)積都無法驗證。不過，kernel理論指出，對于一個空間，只要定義一個正定核(positive kernel)——一個符合正定條件的二元運算，就必然存在一個希爾伯特空間，其內(nèi)積運算等效于核運算。這個結(jié)論的重要意義在于，我們可以繞開線性空間，通過首先定義kernel的方式，誘導(dǎo)出一個線性空間(叫做再生核希爾伯特空間 Reproducing Kernel Hilbert Space)，從而我們就自然獲得我們所需要的度量結(jié)構(gòu)和線性運算結(jié)構(gòu)。這是kernel theory的基礎(chǔ)。

在很多教科書中，以二次核為例子，把二維空間變成三維，然后告訴大家kernel用于升維。對于這種說法，我一直認為在一定程度上是誤導(dǎo)的。事實上，kernel的最首要意義是內(nèi)積的建立（或者改造），從而誘導(dǎo)出更利于表達的度量和運算結(jié)構(gòu)。對于一個問題而言，選擇一個切合問題的kernel比起關(guān)注“升維”來得更為重要。

kernel被視為非線性化的重要手段，用于處理非高斯的數(shù)據(jù)分布。這是有道理的。通過nonlinear kernel改造的內(nèi)積空間，其結(jié)構(gòu)和原空間的結(jié)構(gòu)確實不是線性關(guān)聯(lián)，從這個意義上說，它實施了非線性化。不過，我們還應(yīng)該明白，它的最終目標(biāo)還是要回到線性空間，新的內(nèi)積空間仍舊是一個線性空間，它一旦建立，其后的運算都是線性的，因此，kernel的使用就是為了尋求一個新的線性空間，使得線性運算更加合理——非線性化的改造最終仍舊是要為線性運算服務(wù)。

值得一提的是，kernelization本質(zhì)上說還是一種嵌入過程：對于一個空間先建立內(nèi)積結(jié)構(gòu)，并且以保持內(nèi)積結(jié)構(gòu)不變的方式嵌入到一個高維的線性空間，從而繼承其線性運算體系。

上面說到的都是從全局的方式建立代數(shù)結(jié)構(gòu)的過程，但是那必須以某種全局結(jié)構(gòu)為基礎(chǔ)（無論預(yù)先定義的是運算，度量還是內(nèi)積，都必須適用于全空間。）但是，全局結(jié)構(gòu)未必存在或者適合，而局部結(jié)構(gòu)往往簡單方便得多。這里就形成一種策略，以局部而達全局——這就是流形(manifold)的思想，而其則根源于拓撲學(xué)。

從拓撲學(xué)的角度說，流形就是一個非常優(yōu)良的拓撲空間：符合Hausdorff分離公理（任何不同的兩點都可以通過不相交的鄰域分離），符合第二可數(shù)公理（具有可數(shù)的拓撲基），并且更重要的是，局部同胚于R^n。因此，一個正則(Regular)流形基本就具有了各種最良好的拓撲特性。而局部同胚于R^n，代表了它至少在局部上可以繼承R^n的各種結(jié)構(gòu)，比如線性運算和內(nèi)積，從而建立分析體系。事實上，拓撲流形繼承這些結(jié)構(gòu)后形成的體系，正是現(xiàn)代流形理論研究的重點。繼承了分析體系的流形，就形成了微分流形(Differential manifold)，這是現(xiàn)代微分幾何的核心。而微分流形各點上的切空間(Tangent Space)，則獲得了線性運算的體系。而進一步繼承了局部內(nèi)積結(jié)構(gòu)的流形，則形成黎曼流形(Riemann manifold)，而流形的全局度量體系——測地距離(geodesics)正是通過對局部度量的延伸來獲得。進一步的，當(dāng)流行本身的拓撲結(jié)構(gòu)和切空間上的線性結(jié)構(gòu)發(fā)生關(guān)系——也就獲得一簇拓撲關(guān)聯(lián)的線性空間——向量叢(Vector bundle)。

雖然manifold theory作為現(xiàn)代幾何學(xué)的核心，是一個博大精深的領(lǐng)域，但是它在learning中的應(yīng)用則顯得非常狹窄。事實上，對于manifold，很多做 learning的朋友首先反應(yīng)的是ISOMAP, LLE, eigenmap之類的算法。這些都屬于embedding。當(dāng)然，這確實是流形理論的一個重要方面。嚴格來說，這要求是從原空間到其映像的微分同胚映射，因此，嵌入后的空間在局部上具有相同的分析結(jié)構(gòu)，同時也獲得了各種好處——全局的線性運算和度量。不過，這個概念在learning的應(yīng)用中被相當(dāng)程度的放寬了——微分同胚并不能被完全保證，而整個分析結(jié)構(gòu)也不能被完全保持。大家更關(guān)注的是保持局部結(jié)構(gòu)中的某個方面——不過這在實際應(yīng)用中的折衷方案也是可以理解的。事實表明，當(dāng)原空間中的數(shù)據(jù)足夠密集的情況下，這些算法工作良好。

Learning中流形應(yīng)用的真正問題在于它被過濫地運用于稀疏空間(Sparse space)，事實上在高維空間中撒進去幾千乃至幾十萬點，即使最相鄰的幾點也難稱為局部了，局部的范圍和全局的范圍其實已經(jīng)沒有了根本差別，連局部的概念都立不住腳的時候，后面基于其展開的一切工作也都沒有太大的意義。事實上，稀疏空間有其本身的規(guī)律和法則，通過局部形成全局的流形思想從本質(zhì)上是不適合于此的。雖然，流形是一種非常美的理論，但是再漂亮的理論也需要用得其所——它應(yīng)該用于解決具有密集數(shù)據(jù)分布的低維空間。至于，一些paper所報告的在高維空間（比如人臉）運用流形方法獲得性能提升，其實未必是因為“流形”本身所起的作用，而很可能是其它方面的因素。

流形在實際應(yīng)用中起重要作用的還有兩個方面：一個是研究幾何形體的性質(zhì)（我們暫且不談這個），還有就是它和代數(shù)結(jié)構(gòu)的結(jié)合形成的李群(Lie group)和李代數(shù)(Lie algebra)。當(dāng)我們研究的對象是變換本身的時候，它們構(gòu)成的空間是有其特殊性的，比如所有子空間投影形成了Grassmann流形，所有的可逆線性算子，或者仿射算子，也形成各自的流形。對他們的最重要操作是變換的結(jié)合，而不是加法數(shù)乘，因此，它們上面定義的更合適的代數(shù)結(jié)構(gòu)應(yīng)該是群和不是線性空間。而群和微分流形的結(jié)合體——李群則成為它們最合適的描述體系——而其切空間則構(gòu)成了一種加強的線性空間：李代數(shù)，用于描述其局部變化特性。

李代數(shù)和李群的關(guān)系是非常漂亮的。它把變換的微變化轉(zhuǎn)換成了線性空間的代數(shù)運算，使得移植傳統(tǒng)的基于線性空間的模型和算法到李空間變得可能。而且李代數(shù)中的矩陣比起變換本身的矩陣甚至更能反映變換的特性。幾何變換的李代數(shù)矩陣的譜結(jié)構(gòu)就能非常方便地用于分析變換的幾何特性。

最后，回頭總結(jié)一下關(guān)于嵌入這個應(yīng)用廣泛的策略，在learning中的isometry, kernel和manifold embedding都屬于此范疇，它們分別通過保持原空間的度量結(jié)構(gòu)，內(nèi)積結(jié)構(gòu)和局部結(jié)構(gòu)來獲得到目標(biāo)（通常是向量空間）的嵌入，從而獲得全局的坐標(biāo)表達，線性運算和度量，進而能被各種線性算法和模型所應(yīng)用。

在獲得這一系列好處的同時，也有值得我們注意的地方。首先，嵌入只是一種數(shù)學(xué) 手段，并不能取代對問題本身的研究和分析。一種不恰當(dāng)?shù)脑冀Y(jié)構(gòu)或者嵌入策略，很多時候甚至適得其反——比如稀疏空間的流形嵌入，或者選取不恰當(dāng)?shù)?kernel。另外，嵌入適合于分析，而未必適合于重建或者合成。這是因為嵌入是一個單射(injection)，目標(biāo)空間不是每一個點都和原空間能有效對應(yīng)的。嵌入之后的運算往往就打破了原空間施加的限制。比如兩個元素即使都是從原空間映射過來，它們的和卻未必有原像，這時就不能直接地回到原空間了。當(dāng) 然可以考慮在原空間找一個點它的映射與之最近，不過這在實際中的有效性是值得商榷的。

和Learning有關(guān)的數(shù)學(xué) 世界是非常廣博的，我隨著學(xué)習(xí)和研究的深入，越來越發(fā)現(xiàn)在一些我平常不注意的數(shù)學(xué)分支中有著適合于問題的結(jié)構(gòu)和方法。比如，廣群(groupoid)和廣代數(shù)(algebroid)能克服李群和李代數(shù)在表示連續(xù)變換過程中的一些困難——這些困難困擾了我很長時間。解決問題和建立數(shù)學(xué)模型是相輔相成的，一方面，一個清晰的問題將使我們有明確的目標(biāo)去尋求合適的數(shù)學(xué)結(jié)構(gòu)，另一方面，對數(shù)學(xué)結(jié)構(gòu)的深入理解對于指導(dǎo)問題的解決也是有重要作用的。對于解決一個問題來說，數(shù)學(xué)工具的選擇最重要的是適合，而不是高深，但是如果在現(xiàn)有數(shù)學(xué)方法陷入困難的時候，尋求更高級別的數(shù)學(xué)的幫助，往往能柳暗花明。數(shù)學(xué)家長時間的努力解決的很多問題，并不都是理論游戲，他們的解決方案中很多時候蘊含著我們需要的東西，而且可能導(dǎo)致對更多問題的解決——但是我們需要時間去學(xué)習(xí)和發(fā)現(xiàn)它們。

bneliao 2008-09-06 17:04 發(fā)表評論