http://mp.weixin.qq.com/s?__biz=MjM5OTExNDI0Nw==&mid=200268130&idx=1&sn=67f49e08564d1314d369f56276e8daf7&scene=1&from=groupmessage&isappinstalled=0#rd

對話Facebook人工智能實驗室主任、深度學(xué)習(xí)專家Yann LeCun

Yann LeCun(燕樂存),F(xiàn)acebook人工智能實驗室主任,NYU數(shù)據(jù)科學(xué)中心創(chuàng)始人,計算機科學(xué)、神經(jīng)科學(xué)、電子電氣科學(xué)教授。他1983年在ESIEE獲得電氣工程學(xué)位,1987年在UPMC獲得計算機博士學(xué)位。在多倫多大學(xué)做了一段時間博士后,于1988年加入位于新澤西州的AT&T貝爾實驗室。1996年他成為圖像處理研究部的主任,2003年,在普林斯頓NEC研究院經(jīng)歷短暫的Fellow生活以后,加入NYU。2013年,他被Facebook聘請為人工智能實驗室主任,同時仍在NYU兼職。

他目前的研究興趣在于:機器學(xué)習(xí),計算機認(rèn)知,移動機器人以及計算神經(jīng)學(xué)。在這些領(lǐng)域他發(fā)表了180余篇論文和圖書,涉及主題有神經(jīng)網(wǎng)絡(luò)、手寫體識別、圖像處理和壓縮以及計算機認(rèn)知的專用電路和架構(gòu)。他在貝爾實驗室研發(fā)的字符識別技術(shù),被全世界多家銀行用于識別支票,早在2000年左右,該程序識別了全美10%-20%的支票。他發(fā)明的圖片壓縮技術(shù)DjVu,被數(shù)百家網(wǎng)站和出版商采納,擁有上百萬用戶。他研發(fā)的一個識別方法,卷積網(wǎng)絡(luò),是AT&T、Google、微軟、NEC、IBM、百度以及Facebook等公司在文檔識別,人機交互,圖片標(biāo)注、語音識別和視頻分析等等技術(shù)的奠基石。

LeCun教授是IJCV、PAMI和IEEE Trans的審稿人。CVPR06的程序主席、ICLR2013和2014的主席。他是IPAM(Institute for Pure and Applied Mathematics)的顧問。他是2014年IEEE神經(jīng)網(wǎng)絡(luò)領(lǐng)軍人物獎獲得者。

本文的采訪者是另一位大牛Gregory Piatetsky,KDD會議創(chuàng)始人,是1989,1991和1993年KDD的主席,SIGKDD第一個服務(wù)獎?wù)芦@得者,KDnuggets網(wǎng)站和周刊的維護者。

本文主要內(nèi)容有,是什么給深度學(xué)習(xí)帶來了今日如此令世人矚目的成績,Yann Lecun和Vapnik關(guān)于神經(jīng)網(wǎng)絡(luò)和核函數(shù)(支持向量機)的爭論,以及Facebook理想中的AI是什么樣子的。

以下為采訪原文:

問:人工神經(jīng)網(wǎng)絡(luò)的研究已經(jīng)有五十多年了,但是最近才有非常令人矚目的結(jié)果,在諸如語音和圖像識別這些比較難的問題上,是什么因素讓深度學(xué)習(xí)網(wǎng)絡(luò)勝出了呢?數(shù)據(jù)?算法?硬件?

答:雖然大部分人的感覺是人工神經(jīng)網(wǎng)絡(luò)最近幾年才迅速崛起,但實際上上個世紀(jì)八十年代以后,就有很多成功的應(yīng)用了。深度學(xué)習(xí)指的是,任何可以訓(xùn)練多于兩到三個非線性隱含層模型的學(xué)習(xí)算法。大概是2003年,Geoff Hinton,Yoshua Bengio和我策劃并鼓動機器學(xué)習(xí)社區(qū)將興趣放在表征學(xué)習(xí)這個問題上(和簡單的分類器學(xué)習(xí)不同)。直到2006-2007年左右才有了點味道,主要是通過無監(jiān)督學(xué)習(xí)的結(jié)果(或者說是無監(jiān)督預(yù)訓(xùn)練,伴隨監(jiān)督算法的微調(diào)),這部分工作是Geoff Hinton,Yoshua Bengio,Andrew Ng和我共同進行的。

但是大多數(shù)最近那些有效果的深度學(xué)習(xí),用得還是純監(jiān)督學(xué)習(xí)加上后向傳播算法,跟上個世紀(jì)八十年代末九十年代初的神經(jīng)網(wǎng)絡(luò)沒太大區(qū)別。

區(qū)別在于,我們現(xiàn)在可以在速度很快的GPU上跑非常大非常深層的網(wǎng)絡(luò)(比如有時候有十億連接,12層),而且還可以用大規(guī)模數(shù)據(jù)集里面的上百萬的樣本來訓(xùn)練。過去我們還有一些訓(xùn)練技巧,比如有個正則化的方法叫做dropout,還有克服神經(jīng)元的非線性問題,以及不同類型的空間池化(spatial pooling)等等。

很多成功的應(yīng)用,尤其是在圖像識別上,都采用的是卷積神經(jīng)網(wǎng)絡(luò)(ConvNet),是我上個世紀(jì)八九十年代在貝爾實驗室開發(fā)出來的。后來九十年代中期,貝爾實驗室商業(yè)化了一批基于卷積神經(jīng)網(wǎng)絡(luò)的系統(tǒng),用于識別銀行支票(印刷版和手寫版均可識別)。

經(jīng)過了一段時間,其中一個系統(tǒng)識別了全美大概10%到20%的支票。最近五年,對于卷積神經(jīng)網(wǎng)絡(luò)的興趣又卷土重來了,很多漂亮的工作,我的研究小組有參與,以及Geoff Hinton,Andrew Ng和Yoshua Bengio,還有瑞士IDSI的AJargen Schmidhuber,以及加州的NEC。卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)在被Google,F(xiàn)acebook,IBM,百度,NEC以及其他互聯(lián)網(wǎng)公司廣泛使用,來進行圖像和語音識別。(Gregory Piatetsky注:Yann Lecun教授的一個學(xué)生,最近贏得了Kaggle上貓狗識別的比賽,用的就是卷積神經(jīng)網(wǎng)絡(luò),準(zhǔn)確度98.9%。)

問:深度學(xué)習(xí)可不是一個容易用的方法,你能給大家推薦一些工具和教程么?大家都挺想從在自己的數(shù)據(jù)上跑跑深度學(xué)習(xí)。

答:基本上工具有兩個推薦:

  • Torch7

  • Theano + Pylearn2

他們的設(shè)計哲學(xué)不盡相同,各有千秋。Torch7是LuaJIT語言的一個擴展,提供了多維數(shù)組和數(shù)值計算庫。它還包括一個面向?qū)ο蟮纳疃葘W(xué)習(xí)開發(fā)包,可用于計算機視覺等研究。Torch7的主要優(yōu)點在于LuaJIT非常快,使用起來也非常靈活(它是流行腳本語言Lua的編譯版本)。

Theano加上Pylearn先天就有Python語言帶來的優(yōu)勢(Python是廣泛應(yīng)用的腳本語言,很多領(lǐng)域都有對應(yīng)的開發(fā)庫),劣勢也是應(yīng)為用Python,速度慢。

問:咱倆很久以前在KXEN的科學(xué)咨詢會議上見過,當(dāng)時Vapnik的概率學(xué)習(xí)理論和支持向量機(SVM)是比較主流的。深度學(xué)習(xí)和支持向量機/概率學(xué)習(xí)理論有什么關(guān)聯(lián)?

答:1990年前后,我和Vapnik在貝爾實驗室共事,歸屬于Larry Jackel的自適應(yīng)系統(tǒng)研究部,我倆辦公室離得很近。卷積神經(jīng)網(wǎng)絡(luò),支持向量機,正切距離以及其他后來有影響的方法都是在這發(fā)明出來的,問世時間也相差無幾。1995年AT&T拆分朗訊以后,我成了這個部門的領(lǐng)導(dǎo),部門后來改成了AT&T實驗室的圖像處理研究部。部門當(dāng)時的機器學(xué)習(xí)專家有Yoshua Bengio, Leon Bottou,Patrick Haffner以及Vladimir Vapnik,還有幾個訪問學(xué)者以及實習(xí)生。

我和Vapnik經(jīng)常討論深度網(wǎng)絡(luò)和核函數(shù)的相對優(yōu)缺點。基本來講,我一直對于解決特征學(xué)習(xí)和表征學(xué)習(xí)感興趣。我對核方法興趣一般,因為它們不能解決我的問題。老實說,支持向量機作為通用分類方法來講,是非常不錯的。但是話說回來,它們也只不過是簡單的兩層模型,第一層是用核函數(shù)來計算輸入數(shù)據(jù)和支持向量之間相似度的單元集合。第二層則是線性組合了這些相似度。

第一層就是用最簡單的無監(jiān)督模型訓(xùn)練的,即將訓(xùn)練數(shù)據(jù)作為原型單元存儲起來。基本上來說,調(diào)節(jié)核函數(shù)的平滑性,產(chǎn)生了兩種簡單的分類方法:線性分類和模板匹配。大概十年前,由于評價核方法是一種包裝美化過的模板匹配,我惹上了麻煩。Vapnik,站在我對立面,他描述支持向量機有非常清晰的擴展控制能力。“窄”核函數(shù)所產(chǎn)生的支持向量機,通常在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好,但是其普適性則由核函數(shù)的寬度以及對偶系數(shù)決定。Vapnik對自己得出的結(jié)果非常自信。他擔(dān)心神經(jīng)網(wǎng)絡(luò)沒有類似這樣簡單的方式來進行擴展控制(雖然神經(jīng)網(wǎng)絡(luò)根本沒有普適性的限制,因為它們都是無限的VC維)。

我反駁了他,相比用有限計算能力來計算高復(fù)雜度函數(shù)這種能力,擴展控制只能排第二。圖像識別的時候,移位、縮放、旋轉(zhuǎn)、光線條件以及背景噪聲等等問題,會導(dǎo)致以像素做特征的核函數(shù)非常低效。但是對于深度架構(gòu)比如卷積網(wǎng)絡(luò)來說卻是小菜一碟。

問:祝賀你成為Facebook人工智能實驗室的主任。你能給講講未來幾年Facebook在人工智能和機器學(xué)習(xí)上能有什么產(chǎn)出么?

答:非常謝謝你,這個職位是個非常難得的機會。基本上來講,F(xiàn)acebook的主要目標(biāo)是讓人與人更好的溝通。但是當(dāng)今的人們被來自朋友、新聞、網(wǎng)站等等信息來源狂哄亂炸。Facebook幫助人們來在信息洪流中找到正確的方向。這就需要Facebook能知道人們對什么感興趣,什么是吸引人的,什么讓人快樂,什么讓人們學(xué)到新東西。這些知識,只有人工智能可以提供。人工智能的進展,將讓我們理解各種內(nèi)容,比如文字,圖片,視頻,語音,聲音,音樂等等。

問:長期來看,你覺得人工智能會變成什么樣?我們會不會達到Ray Kurzweil所謂的奇點?

答:我們肯定會擁有智能機器。這只是時間問題。我們肯定會有那種雖然不是非常聰明,但是可以做有用事情的機器,比如無人駕駛車。

至于這需要多長時間?人工智能研究者之前很長的一段時間都低估了制造智能機器的難度。我可以打個比方:研究進展就好像開車去目的地。當(dāng)我們在研究上發(fā)現(xiàn)了新的技術(shù),就類似在高速路上開車一樣,無人可擋,直達目的地。

但是現(xiàn)實情況是,我們是在一片濃霧里開車,我們沒有意識到,研究發(fā)現(xiàn)的所謂的高速公路,其實只是一個停車場,前方的盡頭有一個磚墻。很多聰明人都犯了這個錯誤,人工智能的每一個新浪潮,都會帶來這么一段從盲目樂觀到不理智最后到沮喪的階段。感知機技術(shù)、基于規(guī)則的專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、圖模型、支持向量機甚至是深度學(xué)習(xí),無一例外,直到我們找到新的技術(shù)。當(dāng)然這些技術(shù),從來就不是完全失敗的,它們?yōu)槲覀儙砹诵碌墓ぞ摺⒏拍詈退惴ā?/p>

雖然我相信我們最終一定會制造出超越人類智能的機器,但是我并不相信所謂的奇點理論。大部分人覺得技術(shù)的進展是個指數(shù)曲線,其實它是個S型曲線。S型曲線剛開始的時候跟指數(shù)曲線很像。而且奇點理論比指數(shù)曲線還夸張,它假設(shè)的是漸進曲線。線性、多項式、指數(shù)和漸進以及S曲線的動態(tài)演變,都跟阻尼和摩擦因子有關(guān)系。而未來學(xué)家卻假設(shè)這些因子是不存在的。未來學(xué)家生來就愿意做出盲目的預(yù)測,尤其是他們特別渴望這個預(yù)測成真的時候,可能是為了實現(xiàn)個人抱負(fù)。

問:你還在NYU數(shù)據(jù)科學(xué)中心當(dāng)兼職主任,你怎么權(quán)衡或者結(jié)合在Facebook的工作?

答:我在NYU數(shù)據(jù)科學(xué)中心已經(jīng)不再擔(dān)任實際職務(wù)了,而是名譽主任。在新的主任選舉出來以前,代理主任是S.R. Srinivasa “Raghu” Varadha,世界上最有名的統(tǒng)計學(xué)家。NYU已經(jīng)展開了新主任的遴選工作。在數(shù)據(jù)科學(xué)中心的建立過程中,我花費了相當(dāng)大的精力。我們現(xiàn)在書據(jù)科學(xué)方面有碩士生項目,未來會有博士生項目。現(xiàn)在中心有9個工作空缺,和Berkeley和華盛頓大學(xué)合作,我們從Moore和Sloan基金會拿到了非常大的一個五年基金支持,中心現(xiàn)在和Facebook等各大公司都有合作伙伴關(guān)系,我們馬上要蓋新大樓。下一任中心主任將會非常熱愛自己的工作!

問:“數(shù)據(jù)科學(xué)”這個詞,近來經(jīng)常出現(xiàn),被認(rèn)為是統(tǒng)計學(xué)、商業(yè)智能等學(xué)科的交叉。這個數(shù)據(jù)科學(xué)和之前的“數(shù)據(jù)挖掘”或者“預(yù)測分析”有什么不同?它是一個新學(xué)科?它的公理和原則有哪些?

答:數(shù)據(jù)科學(xué)指的是自動或半自動地從數(shù)據(jù)中抽取知識。這個過程涉及很多的學(xué)科,每個學(xué)科對它都有自己的名字,包括概率估計,數(shù)據(jù)挖掘,預(yù)測分析,系統(tǒng)辨識,機器學(xué)習(xí),人工智能等等。

從各個學(xué)科的角度,統(tǒng)計學(xué)、機器學(xué)習(xí)以及某些應(yīng)用數(shù)學(xué),都可以聲稱是數(shù)據(jù)科學(xué)的起源。但是實際上,數(shù)據(jù)科學(xué)之于統(tǒng)計學(xué)、機器學(xué)習(xí)以及應(yīng)用數(shù)學(xué),正如上個世紀(jì)六十年代的計算機科學(xué)之于電子電氣、物理和數(shù)學(xué)。后來計算機科學(xué)變成了一個完全成熟的獨立學(xué)科,而不是數(shù)學(xué)或者工程的子學(xué)科,完全是因為它對社會非常重要。

當(dāng)今的數(shù)字時代,數(shù)據(jù)指數(shù)級別的瘋漲,從數(shù)據(jù)中自動抽取知識這個問題,已經(jīng)逐漸成為了人們的焦點。這正促進數(shù)據(jù)科學(xué)成為一個真正獨立的學(xué)科。也促進著統(tǒng)計學(xué)、機器學(xué)習(xí)和數(shù)學(xué)重新劃定自己的學(xué)科界限。數(shù)據(jù)科學(xué)還創(chuàng)造了“方法學(xué)科”的科學(xué)家和“領(lǐng)域?qū)W科”如自然科學(xué)、商科、藥學(xué)和政府的工作人員緊密交流的機會。

我預(yù)測,未來十年,很多頂尖大學(xué)都會設(shè)立數(shù)據(jù)科學(xué)系。

問:您對于“大數(shù)據(jù)”這個詞怎么看?作為一種趨勢或者一個時髦詞,它有多少成分是夸大,多少是真實的?

答:對于這個詞,我覺得最近社交網(wǎng)絡(luò)上比較流行的那個笑話非常貼切,把大數(shù)據(jù)比作青少年性行為:每個人都在談?wù)撍瑳]人知道到底怎么做,每個人都以為其他人知道怎么做,所以每個人都聲稱自己也在做,這個笑話我是從Dan Ariely的Facebook上看到的。

我碰到過一些人,哪怕是閃盤可以存下,筆記本可以處理的數(shù)據(jù),都堅持使用Hadoop來處理。

這個詞確實被夸大了。但是如何收集、存儲和分析海量數(shù)據(jù)這個問題是實際存在的。我經(jīng)常懷疑的是諸如“大數(shù)據(jù)”這樣的名字而已,因為今日的大數(shù)據(jù),將成為明日的小數(shù)據(jù)。還有,很多問題都是因為數(shù)據(jù)量不足而產(chǎn)生的,比如基因和醫(yī)療數(shù)據(jù),數(shù)據(jù)永遠(yuǎn)都不會夠用。

問:數(shù)據(jù)科學(xué)家被稱為“二十一世紀(jì)最性感的職業(yè)”。你給想要進入這個領(lǐng)域的人們提一點建議?

答:如果你是個本科生,多學(xué)數(shù)學(xué)、統(tǒng)計學(xué)還有物理學(xué),更重要的是你要學(xué)著寫代碼(學(xué)三到四門計算機課程)。如果你有本科學(xué)位,那么你可以申請NYU數(shù)據(jù)科學(xué)中心的碩士項目。

問:你最近對哪本書比較感興趣?不接觸計算機和手機的時候你都在干些什么?

答:在我空閑的時候,我會造一些微型飛行器,我非常喜歡3D打印,我還經(jīng)常研究帶微控制器的電路板,我還希望能更好的制造音樂(我收集電子風(fēng)門控制器)。大多數(shù)非小說的作品我都看,還聽可多的爵士樂(或者類似的音樂)。

查看英語原文:http://www.kdnuggets.com/2014/02/exclusive-yann-lecun-deep-learning-facebook-ai-lab.html


感謝吳甘沙對本文的審校,感謝包研對本文的策劃。

給InfoQ中文站投稿或者參與內(nèi)容翻譯工作,請郵件至editors@cn.infoq.com。也歡迎大家通過新浪微博(@InfoQ)或者騰訊微博(@InfoQ)關(guān)注我們,并與我們的編輯和其他讀者朋友交流。