http://blog.sina.com.cn/s/blog_671b7c800102ux1k.html
7月7日,筆者有幸在中科院自動(dòng)化所現(xiàn)場(chǎng)聽取了Andrew Ng以《Deep Learning:Overview and Trends》的精彩演講。現(xiàn)將Andrew演講內(nèi)容整理出來,希望對(duì)大家有所幫助。演講中,Andrew主和大家分享了深度學(xué)習(xí)為何產(chǎn)生和發(fā)展成果,展望了未來發(fā)展趨勢(shì),以及百度在人工智能上的使命。現(xiàn)場(chǎng)錄音包括Andrew演講內(nèi)容和會(huì)后現(xiàn)場(chǎng)問答,希望對(duì)大家有幫助~
演講錄音鏈接:http://pan.baidu.com/s/1ntHRSxV
特別說明:本文不是Andrew的演講實(shí)錄,只是筆者記錄下來的內(nèi)容;此外,由于全程英文和筆者技術(shù)水平有限,有不準(zhǔn)確或遺漏之處,還請(qǐng)見諒。
深度學(xué)習(xí)為何產(chǎn)生?
一直以來,在人工智能領(lǐng)域,我們?cè)噲D達(dá)到獲得大量數(shù)據(jù)、做出優(yōu)秀產(chǎn)品和贏得廣大用戶三者之間的良性循環(huán),但傳統(tǒng)的機(jī)器學(xué)習(xí)算法表現(xiàn)并不夠好,良性循環(huán)也未能實(shí)現(xiàn)。
深度學(xué)習(xí)相比于傳統(tǒng)方法有很多優(yōu)勢(shì),如下面這個(gè)很直觀的圖,隨著訓(xùn)練量的提高,傳統(tǒng)方法遇到了瓶頸,但深度學(xué)習(xí)的效果卻蓬勃發(fā)展,不斷提高。
深度學(xué)習(xí)有哪些發(fā)展?
當(dāng)年在斯坦福大學(xué),我和我的團(tuán)隊(duì)曾經(jīng)有一個(gè)想法,讓機(jī)器人去識(shí)別咖啡杯。但機(jī)器人看到的東西和人完全不一樣,我們會(huì)看到一個(gè)具體的杯子,但機(jī)器能看到的只有數(shù)據(jù),這也是計(jì)算機(jī)視覺(computer vision)難點(diǎn)所在,那就是要搞明白這些數(shù)字代表了什么。
過去我們的研究主要集中在三個(gè)領(lǐng)域。第一個(gè)是計(jì)算機(jī)視覺,目的是發(fā)現(xiàn)物體特征,然后描繪這種特征。第二個(gè)是語音識(shí)別(speech recognition),比如對(duì)機(jī)器說:“請(qǐng)找到我的咖啡杯”,機(jī)器就會(huì)識(shí)別這句話的意思。第三個(gè)是文本識(shí)別,這個(gè)有助于我們更好的應(yīng)用,比如機(jī)器翻譯、網(wǎng)絡(luò)搜索等。
很長(zhǎng)一段時(shí)間,我們?cè)O(shè)計(jì)了大量program,也發(fā)了一些paper,但研究沒有什么突破性進(jìn)展。直到大概七年前,我和我的學(xué)生突然有一個(gè)想法:人腦中大部分感知器是一個(gè)非常簡(jiǎn)單的計(jì)算過程。
而對(duì)于人腦的研究也表明,這個(gè)“one program”的假設(shè)是有可能的。我們可以從大腦如何聽、如何看開始,去了解大腦的神經(jīng)元如何工作,并進(jìn)而為深度學(xué)習(xí)提供理論依據(jù)。
有了這個(gè)依據(jù),我們開始從有標(biāo)記數(shù)據(jù)(tagged data)中學(xué)習(xí),也就是有監(jiān)督學(xué)習(xí)(supervised learning)。在給機(jī)器看了50000張咖啡杯圖片后,我們讓機(jī)器人在斯坦福計(jì)算機(jī)系辦公樓里找咖啡杯,效果非常好。進(jìn)一步研究后,我們認(rèn)識(shí)到bigger is better,即特征越多,實(shí)驗(yàn)效果越好。
于是,我就開始尋找誰擁有更多的計(jì)算資源,于是找到了谷歌,開始了谷歌大腦這個(gè)項(xiàng)目,并建立了當(dāng)時(shí)世界最大的神經(jīng)網(wǎng)絡(luò),達(dá)到10億個(gè)神經(jīng)元。而我們的研究也推動(dòng)了谷歌產(chǎn)品的發(fā)展,提升了用戶的體驗(yàn),比如谷歌地圖,以及語音識(shí)別方面的應(yīng)用。
谷歌在硅谷確實(shí)很牛,但相比于谷歌,百度能夠更迅速地把深度學(xué)習(xí)技術(shù)應(yīng)用到更多的產(chǎn)品中,比如最值得驕傲的是百度圖像搜索,準(zhǔn)確度已超過谷歌,此外還有百度語音識(shí)別,廣告預(yù)估等。
過去很多深度學(xué)習(xí)的成功,很大原因是利用了有標(biāo)記數(shù)據(jù)。像百度、谷歌、Facebook這些公司,擁有海量的有標(biāo)記數(shù)據(jù),相較于其他技術(shù),深度學(xué)習(xí)更適合利用這些數(shù)據(jù)并獲得好的表現(xiàn)。
但這并不是深度學(xué)習(xí)發(fā)展的唯一方向,想想寶寶是如何學(xué)習(xí)的?他們并不是從有標(biāo)記數(shù)據(jù)中獲得認(rèn)知,即使是最最深沉地愛著自己孩子的父母,也不會(huì)找出5萬個(gè)咖啡杯的照片指認(rèn)給自己的孩子看,來讓他認(rèn)識(shí)什么是咖啡杯的。另外一點(diǎn),標(biāo)記數(shù)據(jù)可能存在用完的問題。所以大家認(rèn)為使用未標(biāo)記數(shù)據(jù)來學(xué)習(xí),會(huì)是未來的發(fā)展方向。
實(shí)際上,人類大腦如何處理圖片的過程就是visual cortex尋找圖片中Lines/edges的過程,而每一個(gè)visual cortex的神經(jīng)元就是一個(gè)Model。
基于生物學(xué)中visual cortex的工作原理,發(fā)現(xiàn)人腦處理的過程是:像素->邊緣->對(duì)象部分->對(duì)象模型。深度學(xué)習(xí)的過程是反向的。深度學(xué)習(xí)就是找到小patch再將其進(jìn)行組合,就得到了上一層的特征(feature),遞歸地向上學(xué)習(xí)特征( feature)。在不同對(duì)象(object)上做訓(xùn)練是,所得的邊緣(edge)是非常相似的,但對(duì)象部分(object parts)和模型(models) 就會(huì)完全不同。
(筆者:講到這里,Andrew秀出了他的演講中唯一的一個(gè)公式,還和大家開玩笑的說道,I hope you can enjoy it. 由于筆者的水平,這段聽的不太明白,就把公式貼出來,大家自己琢磨吧。)
我們?cè)褂肶outube視頻作為未標(biāo)記數(shù)據(jù),讓機(jī)器自主學(xué)習(xí)。這個(gè)過程中我們發(fā)現(xiàn)人臉在視頻中出現(xiàn)的頻率非常高,神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)如何認(rèn)出人臉。但令人驚喜的是,機(jī)器通過自學(xué)辨別出了貓臉。
當(dāng)時(shí)我作報(bào)告時(shí),經(jīng)常會(huì)有人過來對(duì)我說:深度學(xué)習(xí)聽起來真的很酷,但如果沒有造價(jià)昂貴的16000個(gè) CPU,我們還能在深度學(xué)習(xí)上有所進(jìn)展么?所以我和Adam、Bryan(兩周前剛剛加盟百度)就致力于尋找到更便宜的研發(fā)方法。后來我們決定用GPU(Graphic Processing Unit)替代CPU,降低造價(jià)。于是,具有100億個(gè)節(jié)點(diǎn)的神經(jīng)元網(wǎng)絡(luò)便出現(xiàn)了。
深度學(xué)習(xí)未來去向何方?
我認(rèn)為0-2年內(nèi)仍以標(biāo)記數(shù)據(jù)為主導(dǎo)發(fā)展方向,之后的3-5年,標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)將共同發(fā)展。但關(guān)于深度學(xué)習(xí)的未來更長(zhǎng)遠(yuǎn)的發(fā)展,我認(rèn)為將會(huì)更依賴于無標(biāo)記的數(shù)據(jù),因?yàn)檫@與人類和動(dòng)物認(rèn)知世界的過程更為類似。
具體地說,在計(jì)算機(jī)視覺方面,預(yù)計(jì)在6年內(nèi),我認(rèn)為深度學(xué)習(xí)將會(huì)顛覆現(xiàn)有的所有方法。
在語音識(shí)別方面,目前還處于起步階段,未來將會(huì)有爆發(fā)式增長(zhǎng)。語音識(shí)別和語音合成會(huì)在近幾年產(chǎn)生巨大的影響。語義理解方面,發(fā)展的過程將會(huì)是從單詞的理解到一個(gè)句子,再到文章理解(document representation)。推薦系統(tǒng)和廣告方面,百度做的很好,有效提高了廣告表現(xiàn)。機(jī)器人方面,未來將會(huì)出現(xiàn)真正的智能機(jī)器人。
此外,就是對(duì)獲取數(shù)據(jù)的創(chuàng)新。現(xiàn)在的很多研究都是基于海量數(shù)據(jù),未來或許我們可以通過某種傳感器訓(xùn)練攝像頭來捕捉更多的數(shù)據(jù)。我甚至想和朋友在空閑的時(shí)間里,成立一個(gè)國際數(shù)據(jù)獲取大會(huì)(conference of data acquisition),很遺憾,我沒有這個(gè)時(shí)間。而未來的挑戰(zhàn)將會(huì)集中在規(guī)模化和算法這兩方面。
百度研究院的使命
創(chuàng)立coursera時(shí),我的愿望是讓每個(gè)人可以平等地獲得學(xué)習(xí)的機(jī)會(huì)。如今,誰能助我成就人工智能的夢(mèng)想呢?最終我選擇了百度。
之所以選擇百度,我看到了百度擁有大數(shù)據(jù)和強(qiáng)大的計(jì)算能力;有敏捷的機(jī)構(gòu),能快速地調(diào)配資源去需要的地方,也能夠?qū)⒓夹g(shù)快速落地,比如GPU的落地;同時(shí),我被我所遇到的人所折服,比如Robin、王勁、余凱和張潼。
我相信未來百度研究院將研發(fā)出最棒的工具和技術(shù),構(gòu)建最佳的員工職業(yè)發(fā)展之路,努力打造一個(gè)最好的環(huán)境來吸引優(yōu)秀工程師和研究人員加入我們,成就未來深度學(xué)習(xí)領(lǐng)域的英雄(future hero of Deep Learning)。