欧美国产成人久久精品,亚洲国产精品一区二区三区久久 ,久久国产福利免费

http://www.cnblogs.com/seasamsun/p/samsun.html

2013/07/22-26 于合肥科大

這幾天在合肥參加了由熊輝老師主講的DM（Data Mining），收獲不少。老師講的方式正如他所說的是獨一無二的，通過案例的方式介紹算法，深入淺出，通俗易懂。5天的時間，天氣很熱，課上大家基本上沒有睡覺的。老師認為DM主要分為4大塊：Classification, Association Rule Discovery, Clustering和Anomaly Detection。中間還介紹了對人生，社會，教育等的獨特見解。

1.幾個問題和概念

1）為什么要有DM

硬件的發展。硬件越來越強大也越來越便宜，為我們利用計算機解決大規模計算問題提供了物質基礎。

商業競爭的需要。現在有大量數據需要收集和存貯，如何利用這些數據在同行競爭中占據優勢很關鍵。

人性化需要。高質量，更方便，更舒適，更安全，更宜居的生活是人的本能需求，利用計算機對每個人的歷史數據進行分析和挖掘可以更好地滿足人的需要。

城市的發展。隨著社會信息化的進行，交通、醫療、教育、服務等各行各業都需要合理監督和優化配置。

科學發展的需要。未來科學的發展離不開計算機的支持，科學家需要更好的理解和分析數據。

2）DM的定義（定義很多，選取一種）

從數據中獲取之前不知道，但有用的信息。挖掘之前是一堆數據，挖掘之后還是一堆數據，只是挖掘之后的數據是經過提煉的，人們所能理解的信息。數據挖掘必須要有數據，沒有數據做不好數據挖掘。數據是信息的載體，現實生活中的信息不一定可以被計算機直接處理，所以需要分析和抽象并預處理為計算機能處理的數據。挖掘到的信息準不準，有不有用還需要驗證和檢驗。

3）DM && ML

數據挖掘重在挖掘的流程，機器學習重在算法的調優。兩者的共同點離不開數據，算法和驗證。

4）數據的來源

做DM是從數據開始的，如果數據一開始就是壞的，不要指望能挖掘到好的、有用的信息。

5）數據預處理

原始數據通常是含有噪聲的，這些噪聲數據對結果影響很大，需要找到并移除。數據的預處理內容還包括：整合，取樣，降維，特征提取。整合就是把多個數據源的原始數據合并在一起，取樣是選取部分樣本作學習樣本，降維簡單的理解就是選擇哪些屬性，特征提取提取麻煩點涉及到構造特征空間，它主要是進一步提煉原始數據。

6）數據可視化

做DM需要有較好的圖像展示能力。一堆數據和一個圖像在一起一定是圖像更直觀，更有說服力。通過圖像可以幫助我們分析和理解數據。

7）什么是大數據

大數據不是數據體積大，數量多。它應該用單位時間內能處理的能力來衡量。如果在能接受的時間和代價內，數據非常多但能被處理完畢，那么可以認為該數據還不夠大。

2. 挖掘技術

2.1. 分類

分類就是通過訓練出的模型判斷一個未知樣本屬于哪個類。最常見的就是2分類問題，2分類問題在金融欺詐，疾病診斷用的比較多。分類比聚類容易，分類有參考系，聚類沒有。分類一般是監督性學習。

常見的分類算法有：Decision Tree，K-Nearest-Neighbor，Neural Network，SVM，Naive Bayesian等。判斷一個算法的好壞要從速度，準確性，可理解性，性能幾個方面綜合考慮。沒有一個算法是萬能的，具體選擇哪一個算法需要視情況而定。另外學習算法應該先從該算法的復雜度，優缺點，使用范圍入手。學習一個算法最快的就是看簡單的案例，如果將來需要對某一個算法深入研究才要看其實現的過程。

分類的流程一般是訓練--->評估--->調整--->訓練。評估會用到混合矩陣，一般會使用ROC曲線去描述。

1）Decision Tree

決策樹就是找出滿足什么條件得到什么結果一系列的最大可能性的規則。

決策樹需要解決的難點：該用哪一個屬性，什么時候停止分叉，如何分叉。如何分叉通用的3種方法：增益（Gini），信息商（Entropy），分類錯誤（Misclassification error）。它們的共性就是減少問題的不確定大小。

有時候樹越大，越容易過擬合。過擬合（overfitting）和欠擬合（underfitting）是相對的兩個概念。過擬合拿到做人上就是太較真了，欠擬合就是做什么都無所謂。

決策樹的優點：計算復雜度底，可解釋性強，使用方便。

缺點：不是全局最優，屬性需要是離散的。

關于可解釋性想要再說一點就是政府和公司決策者喜歡DT，因為它清楚，滿足什么條件就有什么結果，而且還告訴你準確率是多少。SVM和Neural Network是一個黑箱，雖然大多數情況下這兩個比DT的準確率高幾個百分點，但決策者更加傾向于DT。

2）KNN

k最近鄰點算法原理就是看這個人是什么樣，就找他身邊最近幾個人看是什么樣，然后求一個平均值。

KNN需要解決的問題：如何衡量最近的人，是經常在一起的男（女）朋友，同事，哥們還是其他人；找幾個人，3,5個還是10個。

KNN的優點：思想簡單，訓練時間短。

缺點：k會影響準確度，分類時間長（lazy）。

3）SVM

SVM就是找到一個超平面把兩個類分開，越開越好。

關于SVM理解幾個概念。hyperplane（超平面），margin（度量分開的程度），quadratic programing（二次規劃），slack variables（松弛變量，消除噪音用），kernel function（轉化為對偶問題時需要用），support vectors（部分樣本，分類結果由這幾個向量決定）。

優點：小樣本性能都較好，準確度高，穩定性好。

缺點：調參數難，訓練時間較長，可理解性較差，維數災難（核函數引起）。

關于分類就介紹這3種算法。補充2個問題。

噪音和異常

噪聲（noise）是錯誤，異常（outlier）不是。通過情況下異常對問題的發現具有重要意義。如金融異常發現等。

訓練樣本&&驗證樣本&&測試樣本

驗證樣本是訓練樣本的一部分，測試樣本和訓練樣本嚴格分開，測試樣本只用一次。驗證的方法一般采用5-flod-validation 或 10-flod-validation。5-flod-validation的意思就是將訓練樣本平均分為5份，標記1,2,3,4,5。先拿2,3,4,5份訓練，第1份測試；然后1,3,4,5份訓練，第2份測試；... ，求5次的評價錯誤即為錯誤率。

2.2. 關聯分析

關聯規則又稱頻繁項挖掘。主要用來找出兩個同時出現的項（item），這些項之間沒有直接的因果關系。與聚類的比較相似，聚類針對對象，關聯針對對象中的某些屬性值。

關聯的幾個概念：項集（itemset），支持數（support count），支持度（support），頻繁項集（frequency itemset），關聯規則（association rule），規則評估量（rule evaluation metric）。

抽取規則的過程需要借助一些過濾條件，這些過濾條件的閾值與規則評估量有關，例如support與confidence。現在confidence被證明有問題，但為了描述經典算法apriori還繼續使用它。

關聯規則難點在于計算，如果一條記錄有n個屬性，那么它的項集是一個組合，2n個。在指數級空間被進行頻繁項搜索是一個NP難問題，更加費時間的是每一次需要掃描數據庫做統計運算。所以可以從2個方面改進，減小搜索項空間和加快數據庫查詢速度。前者的思想是apriori算法的基礎，后者是FP-tree算法的基礎。

由于關聯規則特點，用計算機去發現頻繁項是非常耗時的，這一點與人的思維恰恰相反，人的思維可以跳躍式思考，而計算機不行。

借助關聯分析的特點可以幫助我們做人做事，情報機構大部分就是在做關聯分析。我們和人打交道也有關聯分析的影響，通常有經驗的人會在幾秒鐘之內知道你的身份，工作，地位，年齡及收入等，不是說這個人有什么特異功能，而是他有經驗，這個經驗用DM的術語講就是關聯規則。關聯規則強調細節，細節決定成敗，有些人從細節上會看到別人看不到，看不懂的東西。

人的大腦具備很強的學習能力，只是我們沒有給它數據進行學習，這個數據很多都是失敗的經歷還有自我的不滿足，所以說人的經歷多了，見識多了就變得更加老練和聰明。

2.3. 聚類

聚類是一個非常有挑戰性的問題，原因在于沒有一個統一的標準去衡量聚類結果的好壞。聚類就是將相似的個體放在一起，它可以幫助我們更好的總結和理解事物。分類主要有分割式（partitional）和分層式（hierarchical）兩大類算法。前者是全局的（global），后者是貪婪的（greedy）。前者可描述社會主義社會，后者可以描述資本主義社會，社會主義輕個人重國家，資本主義重個人輕國家。好社會應該利用兩種社會制度的優點，它應該是國富民強，少異常少噪聲，每個人都有機會，中間大兩頭小，幸福指數均值大、方差小滿足正態（正常狀態）分布的社會。

聚類算法的難點在于聚類衡量標準和分類數目。分割式聚類代表性算法是k-means，分層式有group average，dbscan，min，max等。

1）k-means

k-means的思想很簡單。先隨機選擇k的點做初始點；然后每一個點與這k個點作比較，這個點與這k個點哪一個最近就屬于哪個點（類）；求出每一個類的中心點，總共k個，以新的k的點作為類標記按照同樣的方式劃分所有的點；滿足結束條件結束。

算法的優點：簡單容易理解，復雜度低，速度快。

缺點：對k值和初始值敏感，數據分布的稀疏程度有影響，樣本是球形結果才好，抗噪音能力低。

在運用k-means進行聚類分析時，為了減小k值的影響可以先將k值取很大（譬如100），然后再分層聚類，或者先將所有樣本分層1個類再分成2，3... ，多個（Bisecting k-means）。在減小初始值隨機性的影響時，可以采取多次選取求大概率的方法。

2）group average

該方法是分層聚類方法，一般在多元統計課程里會講到。它是分層聚類常用的方法，基本思想是類與類的距離由該類中所有點加權決定，有效的消除了噪聲的干擾。一般來說，group average整體性能比min和max要好，但是其計算量較大。min也有自己的優勢，在密度大的聚類時抗噪能力較好。

3）dbscan

該分層聚類方法canopy方法類似，都是為了提高算法的抗噪能力。它有3個概念：core point，border poing和noise point。難點是確定core point中點的個數。

算法的優點：2,3維聚類效果很好。

缺點：高維效果不好。

2.4. 異常檢測

異常檢測一般是非監督性學習，異常檢測得到的異常可以看成是聚類結果的一種特殊形式。異常和噪聲有區別，異常通常是有用的，從它入手很可能發現新問題，而噪聲通常是錯誤。異常檢測主要用在發現不尋常的事物，在網絡欺詐和疾病檢測中用的比較多。

異常的來源主要是因為它們出現的概率比較低，或者被非正常的篡改。由于是小概率事件，發現它們是非常困難的。

處理這類問題的方法有：分類，統計分布，回歸，幾何和圖論。以聚類的方法為例，由于異常樣本較小，一般聚類方法不適用。因為聚類方法對大類的預測較好，異常檢測是要大概率識別出異常，即使正常數據預測的再高，但異常檢測不到也是沒有效果的。

用分類做檢測常用的做法是加大異常樣本的權重。這樣一來會將一部分正常的數據預測為異常的數據，但是可以接受，在欺詐檢測方面：誤判比漏判好。

2.5. 小結

在介紹DM中4大問題時，沒有給出算法的計算公式。不是說公式不重要，要想深入研究公式是必要的，在解決實際問題時，從宏觀上（思想，優缺點，使用范圍）對每一個算法進行把握就夠了。

3. 好話

在上課的過程中，老師不時穿插他對社會，國家和人生的見解。一方面講算法容易使人睡覺，講這些我們不犯困；另一方面，讓我們增加見識，學會做事做人。

1) 贊美人的話多說，損害人的話少說，謊話不能說，真話不全說

人都是喜歡聽贊美的話；因一時氣憤說話攻擊別人，到頭來即使贏了，也會受傷；表里不一就會失掉做人的根本---誠信；有些話自己說出來本意是好，但是會傷害其他人。

2）如果自己不會做事情，找到會做的人，跟著他們做

不是所有的事自己都會做，遇到必須做自己又不會做的事情時，選擇擅長做這件事的人很重要。

3）方向比能力重要

最可悲的是一個人能力非常強，但是選錯了方向，結果他越努力，錯的越遠。

4）vip不好做

當你成為vip后，你享受利益和尊貴時，也許你已經被盯上了，社會知道你太多的信息，隨著信息化加速發展，你所有的信息都會被記錄。普通人機器掃描不過來，vip數量有限是可以掃描的。用顯微鏡去發現一個人的問題，誰都逃不過。所以vip不好做，普通人也有普通人的好處。

5）不要入即將被標準化的行業

入錯行對每一個人都是比較大的打擊，入錯行意味著你的收入，發展都會受到不良影響。這個行指的是標準化的行業。一旦某一個行業被標準化，絕大部分事都用機器來做時，就沒人什么事了。

6）讓自己無法被人替代

擁有自己的核心競爭力很重要。如果你能做的事別人都能做，對公司來講你就是其他人的一個子集，那你就沒有任何乘數效應可言了。

7）個人的發展由個人知識集，家庭知識集，人際關系知識集決定

年輕的時候對我們影響最大的就是家庭，其次是自己。家庭教育和決策在一個人發展之初是非常重要的，所以做父母的不容易。但隨著年齡增加，最重要的變成個人和人際關系。

8）自己會做蛋糕比切蛋糕更加了不起

一塊蛋糕（利益）在你手上，如何分讓大家皆大歡喜是一件困難的事，因為你要考慮到以后還有沒有人愿意和你分蛋糕。但如果你自己就會做蛋糕，到時候就不缺求你分蛋糕給他的人。

9）放下身段，做長遠打算

如果你目前什么都沒有，無技術，無money，無權利，拼不過爹，也拼不過爺。似乎是一無所有，怎么辦，還好你還有時間，還有目標，還有機會。你可以放下自己的身段，選定正確方向后給老板低價打工。在這個平臺下，你要積蓄力量，沉淀自己，堅持下去總有一天你會證明自己，聰明的老板會設法留下你。這是一個苦b的過程，但卻值得。

posted @ 2014-08-08 13:36 杰哥閱讀(339) | 評論 (0) | 編輯收藏

微信

http://jingyan.baidu.com/album/4d58d541c9bcab9dd5e9c041.html
微信接收的文件在哪里?存儲卡(或手機存儲)/tencent/MicroMsg/Download

被邀請入超過100人群的微信好友必須是已開通微信支付的用戶：http://tech.qq.com/a/20140704/068206.htm。
微信開放平臺改版，可申請微信支付https://open.weixin.qq.com/cgi-bin/frame?t=resource/res_main_tmpl&target=res/app_wx_pay_apply&lang=zh_CN , 已和yatao wang discuss,這是微信的提供的一個接口，可以在此基礎上開發APP
微信支付開通/添加銀行卡方法：http://kf.qq.com/faq/120322fu63YV13080626Bruq.html
請進入微信中的“我”（android平臺點擊右上角功能鍵）=》我的錢包=》右上角功能鍵=》添加銀行卡=》填寫銀行卡信息=》輸入驗證碼即可。添加銀行卡即可使用微信支付功能。

posted @ 2014-08-03 10:45 杰哥閱讀(360) | 評論 (0) | 編輯收藏

沈向洋談做研究的那些事兒

http://blog.sina.com.cn/s/blog_4caedc7a0102exkh.html

編者按：微軟公司今日正式任命沈向洋博士為微軟全球執行副總裁，負責技術和研究。在此之前，沈向洋博士曾為微軟亞洲研究院院長，也是最早參與籌建微軟亞洲研究院的元老之一。沈向洋博士曾于2009年在清華，浙大等高校以講座形式傾囊傳授“做研究”的秘訣。微軟亞洲研究院將網友記錄的講座內容進行整理，與君共享。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　內容整理自網絡

關于閱讀

1．很多研究者花費一半以上的時間用來閱讀。在研究生開始兩年，盡量用課余的時間閱讀有關于你topic的課本和journal articles。

2．了解自己相關topic最為核心的雜志。每年去圖書館翻閱過去一年相關研究者做的technical　reports。

3．不要詳細閱讀每一片paper。第一步，看看哪里是引起興趣的地方。順序為abstract，table of contents, conclusion section and introduction。如果還是毫無發現，那么放過它。第二步，一旦發現你感興趣的地方，看看這個paper有什么good stuff。這個往往因人而異，也許對你來講很好的point并不是作者的重點。第三步，重讀整個文章，評判它的價值。

4．帶著問題閱讀。“我可以怎么用？”“作者的claim是否經得起推敲?”“如果……會怎樣？”搞清作者的motivations, 做出某種選擇的原因，假設和建議的方向。

5．隨時編程。看到paper中陳述的idea,做simulation。

6．如果有人遞給你一篇paper，詢問他們推薦的原因。也許在他們腦海里，某些他們認為對你有用的idea已經春光乍現，而你始終不知所云。

關于networking

1．加入一些你認為活躍的論壇和email list。

2．如果和其他領域的人討論問題時，聽到他說：“你有沒有讀過某某書？”那么“書非借而不能讀也”。

3．發現自己感興趣的paper, 發給你覺得可能會感興趣同仁，告訴他們你感興趣的地方，你可能同樣因此受益。

4．看看你的同事辦公桌上正在閱讀的paper，詢問他們原因，這樣比自己查圖書館要效率高的多。

5．寫出自己idea的draft，或者你寫好的paper，分發給你覺得可能會感興趣的同事包括老板，并且要求他們的評論。

6．盡可能和不同領域的人討論。

7．做reference log。這樣也許通過樹圖，你會通過引用率勾勒出目前占據這塊山頭的幾組大佬。

8．參加會議時，記得帶上名片，給別人介紹一種牢記你名字的辦法。也許你會看到大多數會議的paper實在是boring and silly，所以你參加會議的目的是認識不同的人。他們會給你傳播信息，邀請你去talk，給你一個summer job。認識他們很簡單，走近他們說“我對你的paper很有興趣。”然后問一個問題。

9．夏天的時候不要呆在自己的實驗室，走出去認識新的朋友。他們也許會給你展示另一種不同的看待事情的眼光。尋找summer job的方法，詢問那些正在找工作的畢業生吧。

關于相關的領域

1．選一門這個領域的研究生課程。

2．閱讀一本這個領域的bible 。

3．你知道這個領域最好的雜志么？

4．知道這個領域的翹楚和他們的必殺絕技么？閱讀兵器譜。

5．查看這個領域的公告牌，看最新的announcement。可以的話，找一個美女或者帥哥拍拖。

6．從查看自己學校的department開始，近水樓臺先得月。

7．在“尚能飯否”前，永遠不要忘記數學。不要只做聽眾，不惜找一個死黨用槍逼著你做題。

8．問自己一個問題：“如果我知道x，是不是問題會變得簡單一點？”如果回答“是”，go to 1。

關于筆記

沒有航海日志的船長是失職的。

1．無論你覺得你現在的idea多么垃圾，給它一個墓志銘。

2．給出問題可能的解，考驗直覺的時候到了！

3．總結引起你興趣的reference，向圖書館套磁。

4．時而不時的回頭讀你的筆記，莫做無情郎。

5．按照title, abstract, section headings, fragments of text的格式組織你的筆記，即使你不打算發表，或者很快就變了心思。

關于project

1．知道做什么

2．開小口，不要指望靠這個造論文。先把實際問題解好，think simple。

3．動手，做原型。對于EE的學生尤為重要，好的idea在實驗中產生。

4．使用tools，站在巨人的肩膀上。

5．Collaborate。和別人合作，讓他人樂意與你合作。

總結

方法是一件不太難尋找的事情，問題總會有解的。

“世上本沒有學問的，做的時間長了，就好像有學問了”

-- Harry Shum (沈向洋)

沈向洋博士：

微軟全球執行副總裁，負責技術和研究。沈向洋博士曾任微軟亞洲研究院院長，也是最早參與籌建微軟亞洲研究院的元老之一。在職業生涯中，沈向洋博士因在技術領域中的廣泛建樹和團隊管理中杰出的領導力而飽受贊譽。他在計算機視覺、計算機圖形、模式識別、統計學習和機器人學領域發表了100余篇論文，并擁有50多項美國專利。

閱讀記錄：read twice

posted @ 2014-07-20 09:21 杰哥閱讀(422) | 評論 (0) | 編輯收藏

最高學歷和最高學位

最高學歷：博士研究生；最高學位：工學博士

參考：
促進會
http://zhidao.baidu.com/link?url=jjmqwii6tFPPLE2-oUQCIi7GNXyqYTmKWPpnKI_3re-fJdQiIqBdfRbli-l0mGddI6cMeakeVm198b8Xr4qWZK :外國本科以上教育是沒有學歷之說的，屬于學位教育，最高的學位是博士學位，博士后和院士只是工作者身份，不是學歷和學位。在中國，學歷和學位是分開的，最高學歷是博士研究生，對應博士學位。

副研究員是高級職稱嗎?
答：是的。高級職稱是職稱中最高級別，分正高級和副高級。http://baike.baidu.com/view/4314286.htm，在本頁搜索“副研究員”即可

posted @ 2014-07-19 16:41 杰哥閱讀(978) | 評論 (0) | 編輯收藏

怎么安裝*.jar文件？

http://featureselection.asu.edu/software.php中的Information Gain，運行會提示，錯誤：Undefined variable "weka" or class "weka.attributeSelection.InfoGainAttributeEval".

這個軟件包是*.jar文件，原以為解壓就能找到安裝文件，但沒有。Weiqiang講要安裝java軟件。Feature Selection Package軟件安裝過程如下

第一步：安裝java(使用我電腦中的“JAVA 虛擬機”)，并配置環境變量：計算機->屬性->高級系統設置->環境變量->lenovo的用戶變量->Path(如果沒有PATH，新建一個變量PATH即可)->編輯->(加入”; C:\Program Files (x86)\Java\jre1.6.0_02\bin”到“變量值”,注意此處路徑名可能不同)；

第二步：安裝FeatureSelection-Installer.jar到E: \Feature Selection Package：運行cmd->E:(定位到E盤);cmd->cd E:\Kingsoft\other\matlab 2007a\work\Feature selection\說明(目的，定位到FeatureSelection-Installer.jar所在目錄) ->java -jar FeatureSelection-Installer.jar

在安裝過程中會有提示：

what to do once you've installed Feature Selection Package:

1. Open MATLAB

2. Use MATLAB's 'cd' function to navigate to the folder you

installed Feature Selection Package into.

3. Run the load_fspackage function with the command: 'load_fspackage'

4. Select all of the commands you have run in this session, right click,

and select 'Create Shortcut'. This will give you a shortcut which

you can use to open Feature Selection Package at your choosing.

只要到這里的2，3和4不要管，Weiqiang也不知此處4步代表啥含義，沒管這一步。

第三步：將load_fspackage.m的最開始一句”curPath = pwd;”(pwd的含義查matlab幫助即可，就是當前目錄)中將pwd換成load_fspackage.m所在的目錄'E:\Feature Selection Package\fspackage'即可。在要使用該工具包的程序的最開始加上加上run('E:\Feature Selection Package\fspackage\load_fspackage.m')，這樣就不會出現如下錯了：Undefined variable "weka" or class "weka.attributeSelection.InfoGainAttributeEval".

已經按照上述步驟，在我臺式機成功安裝FeatureSelection-Installer.jar軟件(臺式機原來沒安裝java軟件)。This is with Weiqiang Ren's help.

posted @ 2014-07-14 15:47 杰哥閱讀(1137) | 評論 (0) | 編輯收藏

科研不是比賽，而是一種對未知和完美的自我追求——跟邢波（Eric Xing）面對面聊科研

http://blog.sina.com.cn/s/blog_4caedc7a0102uwvu.html

編者按：6月26日，2014年國際機器學習大會（ICML）在北京國際會議中心完美落幕。作為機器學習領域兩大頂尖年會之一，這是 ICML大會30多年來首次來到中國和遠東，在國內的機器學習界震動不小。身為本次大會主席的卡耐基梅隆大學計算機系教授邢波（Eric Xing）為此做了諸多努力。作為在美國機器學習領域前沿為數不多的華人學者，許多國內計算機專業學生渴望投身其門下。借著此次大會的舉辦，我們也有幸和Eric坐下來，面對面的聊一聊他對科研的態度以及對后輩們的建議。

問：從生物學博士到計算機科學博士，再到機器學習領域的佼佼者，這樣的轉變是如何發生的？
Eric：“為什么會選擇進入一個新的專業？因為興趣。當時對手頭做的研究項目興趣不夠，而同時又有其他的東西讓自己很著迷，所以在完成前項工作后就選擇了轉變。現在回頭看，這樣的轉變在我的生活中并不少見，比如，我最近開始在做計算機系統相關的研究。操作系統跟機器學習是很不一樣的領域，這種轉變的距離和我之前的轉變一樣遠，但興趣使然。15年前，人工智能和機器學習在美國學術圈很冷門，中國人不多、美國人也不多，當時基于興趣選擇轉專業，現在也一樣。當選擇改變時，不要把它當個大事，要把生理和心理障礙壓到最低。”

問：不少人認為，做科研極為枯燥。你認為這里面有誤解嗎？
Eric：“確實有人覺得科研枯燥、與產品的結合不夠緊密，像是對未來的虛幻想象。這其中有一些誤解。很多人基于片面的理解或有限的經驗，簡單的把理論研究和應用研究對立起來，并由此產生一種膚淺的排他思想；比如有些“基礎研究”學者瞧不起“應用研究”學者，認為后者不嚴格正統，或者有些業界的工程師程序員也鄙視大學里的研究者，認為后者不實用。抱有這種想法的人很難成為領先的學者和工程師。其實計算機科研是最不枯燥的研究，優秀的計算機研究往往體現著理論和現實問題的緊密結合。它不是純粹推導公式、設計模型，證明定理；也不是埋頭編程，調參，試錯。嚴謹的計算機科研需要跟數學打交道，這可能對于某些人來說，有些枯燥；但對于另一些人來說，這仍然很有趣并令人興奮。事實上，谷歌的搜索引擎、微軟的Kinect等都是由基礎研究衍生出來的產品——當你把研究跟實際應用結合起來，興趣是很容易產生的。或許研究過程中會比較理論，但我們是基于現實應用問題來提出研究問題。當你希望用一個漂亮的方法（正規、嚴密，普適，可獨立重復的方法）解決問題時，你自然會使用數學手段；但是最后的實現、評估、證明等是從理論和實際應用兩個方面來出發，這樣就會很有意思。

問：有傳聞說您每天只睡4-5個小時，做科研這么忙嗎？
Eric：“我不是為了忙而忙，而是順其自然。就好像彈琴有的地方彈得快了后，慢了自己都不好意思，快反而是一種自然的節奏。有時候會更慢一些、有時候會更快一些，也沒有刻意去保持。當然，其實從生活質量來說，也沒有那么可怕。我也有進行規律的健身鍛煉，業余愛好，跟家人一起玩，等等，我不提倡把自己弄得很憔悴、不顧家庭或不跟朋友交往。如何做到呢？不要浪費時間。睡幾個小時是個人生理特征，但是在不睡覺的時間里，要怎么用？大部分人在大部分時間處于什么都沒做的狀態，他們既沒有做公事，也沒有做私事，但我基本上不存在這樣的時間，我要不就做一些跟工作有關的事，要不就抽空鍛煉、彈琴，聽音樂，看書，或跟家人一起活動。雖然沒有一個明顯的工作到生活的某個切換點，但找準了工作和生活的節奏，還是很自然。對于我來說，研究、健身等事情不是要‘堅持’才能做到的事兒，而是我迫不及待要去做，這些都不是很難受的事兒。”

問：國內不少學生都想當您的學生，那您是如何挑選學生的呢？
Eric：“首先我要通過你向同學們對我們工作的興趣表示感謝！我很希望能滿足同學們的愿望。有時候，這不僅僅是學生的問題，也是我自己的精力和資金的問題。在美國，招學生是一個相當昂貴的事情，每人每年要資助近十萬美元。我的組現在有將近20個學生，再大的話，錢也不夠，我的精力也不夠。我帶學生還是比較認真的，比如每星期至少有一次討論，20個學生就有20次，一星期排下來也差不多了。在挑選學生的時候，我比較注重文化，風格，興趣的多樣性和平衡，而非單純的高產，不會偏重某個國家人特別多，也力求性別的平衡。
除了這些原因，還需要一些研究興趣的匹配，以及研究之外的東西。我招學生的時候，可能會注重一個人的個人修養或人品——就是他/她作為一個普通人的價值，而不僅僅是作為研究者所擁有的能力。研究方面的能力是可以培養的，無論是跟著我還是其他老師，學生的能力都一定會有提高。研究的起點不見得非要高，但是對學生的個人性格或修養有要求，我個人比較喜歡學生在我的組里產生正能量。更細致地話，我比較看重這四點：
一、有獨立精神以及獨立思考的能力。不是說我師兄師姐在做什么選題、最近最熱是什么選題，我都去問問然后聽從。敢于卓爾不群，堅持自己的觀點；但同時也謙虛理性，而非頑固不化。
二、要有一些理想主義。不是做每一件事都有一個精準的投資回報率，要有一些純粹為了興趣和愛好而努力、為了盡善盡美而下功夫的追求。享受過程，而不是苛求結果，把結果當成過程的副產品，有了很好、沒有也不沮喪，這樣才能真正享受過程。
三、誠實而豁達。有一種簡單、率真的性格，不能工于心計。
四、知書達理，有良好教養，禮貌，易于也樂于和別人共事。
我相信擁有以上四點的同學可以成為我組里很好的團隊成員。

問：每次您來微軟亞洲研究院做講座，總是座無虛席，人特多。您和微軟亞洲研究院有什么淵源？
Eric：“微軟研究院一直以來都和CMU（卡耐基梅隆大學）有眾多的交流與合作。對于我個人而言，微軟亞洲研究院至今都是國內為數不多的頂級計算機研究機構，培養的學生大都非常優秀。加上我在這里有很多的朋友，他們也經常邀請我過來和同事學生們交流交流，我也都十分樂意，也學到很多東西。

問：最近在線教育（MOOC）比較火，不知道您有沒有打算在網上開機器學習相關課程？
Eric：“現在MOOC很火，也頗具爭議。從普及知識的角度，Coursera做了一件大好事。但作為想對某個領域有深度了解的同學來說，也必須對自己有一個清楚的定位。如果你的終極目標是對某個話題有一定了解，通過MOOC來學習是個還不錯的選擇。但如果你要以學習的某個方向為職業的話，就需要更多考量。現在的年輕人比較容易從眾，可能會出現的一種情況是，從極度自卑到極度膨脹的距離可能會變得非常短。我個人認為，MOOC更重要的一個作用是普及教育，是掃盲用的。
然而作為一個博士研究生，你是需要普及知識，還是更高級的知識？我現在還沒有加入在線教育，未來可能會，具體視CMU的政策而定。MOOC在普及知識的方面已經做得非常好了，但不見得是我最需要做的事情了。我嘗試提供一些更高端、更適合專業研究需要，聽眾少一點、技術含量更高一點的課，所以我最近把概率圖模型這門課錄像、并通過CMU放到網上。Daphne Koller教授也開過這門課，在MOOC上有，但我的課教得比較前沿、更難，內容更多些，進度也可能也快些，提供給已經有扎實基礎，需要深入研究機器學習的學生。今后我還會公開一門高級機器學習課。“

問：機器學習、人工智能，現在火得不行。您覺得是因為它到時候該火起來了，還是炒作的成分居多？
Eric：“二者兼有吧。現在的確是到了機器學習的時代——計算機應用的需求超過了原來普通的編程、普通的數據庫所能提供的解決方案。數據很大，人肯定處理不過來，數據庫不懂得提供一個足夠智能的處理服務。機器學習雖然也沒能提供解決方法，但它提供了一個大的思路、有意思的思路。有些人可能對機器學習存在一些比較庸俗的想法見解。比如說停留在‘機器學習到底是不是經典意義的人工智能的問題上，貶低一些現在在機器學習、深度學習領域的工作，認為這些不是真正的人工智能，哲學或物理意義上不深刻。還有一種觀點認定機器學習，甚至只是深度學習已經可以解決一切的問題，只不過是缺乏一步一步去實現。這兩種觀點都不夠成熟客觀。我們需要更冷靜一些，平臺是對的、大方向是對的，但是還是有很多空白需要去填補、很多突破還沒有實現。不要急著去摘一些果子，或者閃開就算過了，其實可以扎進去做一些有深度、有分量的東西。”

問：作為華人，在美國做科研，會有民族的包袱嗎？
Eric：“我個人在文化上是非常東西兼容的，對東西方文化都有認真學習和較廣泛的了解和心得。在文化層面，我可能較很多國內朋友更接近中國傳統知識份子——對中國傳統文化非常了解和欣賞，愛古文，詩詞，歷史；欣賞秦漢，魏晉之風。但說到學術研究，我不希望它被包裝成民族之間的比賽。做科研，不能做成比賽，而是一種對未知和完美的自我追求。當成比賽本質上是功利性的，是做不出來一流成果的，更需要對問題有一種本質性的好奇，希望去理解、解決這個問題。比別人快、擊敗別人只是副產品。我老跟我的學生說一個例子，寫論文與做研究就像花樣滑冰、體操比賽一樣，如果老想著我的動作能得10分、滿分、對手怎么樣，你的動作肯定走形、做不好。如果你想著——我要在舞臺上享受表演，你肯定會做得很好。”

問：在您的研究領域中，數學重要嗎？扮演著怎樣的角色？
Eric：“重要！數學從方法論上提供解決方法，從思維上來講它可以培養一種嚴謹的態度，從而為問題尋找一個比較嚴格的、普適的、甚至更好的解決方法。但是我不太建議單獨強調數學或物理某一個學科知識的作用。就像在戰場上，我身邊有武器，什么合適我就抓起來用，而不是說我一定要從始到終用某一種武器。在研究的時候，我需要尋求一個經得起考驗的解決方案，它是從數學來、從工程來、從物理來都不重要。只是，當你在尋求解決方案時，你會發現數學是一個避不開的因素，它自然而然地影響你的選擇。

問：最后，能否給有志于從事計算機科學研究的學生提些您的個人建議？
Eric：其實之前了分享過很多次了，但都是以英文的方式。今天借著這個機會，希望也能讓更多的中國學生們看到：
一、清楚地認識到什么是你的目標以及什么是你在技術能力和心智上的優勢和不足，這兩點對于你的成功同等重要。根據這些分析，再來設定自己的目標，規劃自己的行動。
二、當你發覺有必要做出改變時不要猶豫。改變自己的職業方向永遠不嫌太晚，只要這個改變是嚴肅的，且你能夠保證在新的方向上全力以赴。那些浪費在猶豫、等待上的時間經常會比你去適應新生活的時間更長。我曾經處于自己新職業方向的谷底，因為在我更換專業的時候，我對機器學習（machine learning）一無所知。但我知道，我會愛上它，因為這個領域的美與力量。從機器學習方向的入門者到成為CMU的教授，我花了五年時間。
三、你需要非常努力地工作。在我的研究生和之后的職業生涯中，一周7天，我每天平均工作12小時，并保持著高度集中的注意力和高效率。（當然，我其實并不把我做的這些看做工作，我覺得它們和娛樂活動同樣甚至更為有趣。）
四、你努力工作的動力不應該來自你的上司給予的壓力，而是因為你受到工作的啟發與觸動，并愛上了工作。我經常告訴我的學生和朋友，我的研究就是我的生活，而不是僅僅把它看做工作。相比于看電視和玩紙牌，我更享受從事研究。
五、與此同時，你仍然可以擁有一個多彩的、充滿活力的生活。我是體育迷和音樂迷，也喜歡做其他許多事情，享受和家人、朋友在一起的時光。所以我從不消磨時間。當我不在工作時，我盡情地娛樂或鍛煉身體（比如去健身房，彈鋼琴……），并花時間和家人、朋友們相處。
六、你需要讓自己變得非常有創造力，非常獨立。實話說，我研究生階段的很多研究點子并不來自于我的導師，而是我自己想出來的。我從Berkeley的導師那里獲得的，更多的是研究上的精神和資金支持、研究方式和研究品味上的啟發、誠實的品質和自豪感，以及他們的友誼。
七、要了解你研究領域中最新的進展。每年讀一千篇論文并不是一件聳人聽聞的事。事實上如果想成為領域內的頂尖學者，你要了解一切，不僅在本領域，還有許多的相關領域。
八、當你做出突破性成果的同時，你也應該尊重領域內權威們的成果。不要認為他們愚蠢而自己更聰明，并且要去問自己為什么多年以前他們沒有像你這樣做。另一方面，當你確信你確實獲得了權威們沒有的洞見時，你也要有超越他們的勇氣。
九、要變得學識廣博而靈活。許多問題和技術都是相關的，不要在一棵樹上吊死。
十、在研究中做一個完美主義者或理想主義者從來不是一件壞事。擁有一個樂觀的性格和強健的體魄是非常重要的。不要愚蠢地假設自己因為比別人更聰明，所以能不那么努力。事實上，大多數我認識的頂尖科學家都是既絕頂聰明，又會長時間工作并保持高效。所以你需要健康的身體來與他們競爭。我自己在大學時代就是一個半專業的運動員。比起那些比我年輕10－20歲以上的學生們，我至今仍能更高強度、更長時間地連續工作和娛樂。
十一、學會溝通的藝術。樂意去與同事和競爭者討論、分享你的觀點。不僅向同事學習，也要向競爭者學習。
十二、最重要的是，請保持誠實、開放、耐心、快樂和富于遠見，而不是變得卑鄙、封閉、急躁、苦澀和短視。

人物簡介
邢波（Eric Xing）博士現任卡耐基梅隆大學計算機科學系教授。他的主要研究興趣集中在機器學習和統計方法論的發展及大規模計算系統和架構，希望能夠解決在復雜系統中的高維、多峰和動態的潛在世界中的自動化學習、推理以及決策問題。邢波教授擁有美國羅格斯大學分子生物學博士學位和美國加州大學伯克利分校計算機科學博士學位。

邢波教授目前正在進行的研究工作包括：1. 統計學習基礎，包括針對估測時間或空間變化系數模型的理論和算法，稀疏的結構化輸入/輸出模型和非參數貝葉斯模型的理論和算法；2.在分布式系統或云端，搭建基于大模型和大數據規模的并行機器學習的框架；3. 針對基因調節、遺傳變異和疾病相關性的計算和統計分析；4. 將統計學習應用到社交網絡，數據挖掘和計算機視覺中。

邢波教授至今已發表了超過200篇受同行審議的論文。他是美國統計協會雜志（JASA）、應用統計年鑒（AOAS）、IEEE模式分析與機器智能學報（PAMI）和PLoS計算生物學雜志（the PLoS Journal of Computational Biology）的副主編，機器學習雜志（MLJ）和機器學習研究雜志（JMLR）的執行主編。他是美國國防部高級研究計劃局（DARPA）信息科學與技術顧問組的成員，美國國家科學基金會（NSF）事業獎、Alfred P. Sloan學者獎、美國空軍青年學者獎、以及IBM開放協作研究學者獎獲得者。

閱讀記錄：read twice

posted @ 2014-07-11 19:27 杰哥閱讀(327) | 評論 (0) | 編輯收藏

[zz]2014-7-7 Andrew NG 自動化所演講回放：DeepLearning Overview and Tre

http://blog.sina.com.cn/s/blog_671b7c800102ux1k.html

7月7日，筆者有幸在中科院自動化所現場聽取了Andrew Ng以《Deep Learning：Overview and Trends》的精彩演講。現將Andrew演講內容整理出來，希望對大家有所幫助。演講中，Andrew主和大家分享了深度學習為何產生和發展成果，展望了未來發展趨勢，以及百度在人工智能上的使命。現場錄音包括Andrew演講內容和會后現場問答，希望對大家有幫助~

演講錄音鏈接：http://pan.baidu.com/s/1ntHRSxV

特別說明：本文不是Andrew的演講實錄，只是筆者記錄下來的內容；此外，由于全程英文和筆者技術水平有限，有不準確或遺漏之處，還請見諒。

深度學習為何產生？
一直以來，在人工智能領域，我們試圖達到獲得大量數據、做出優秀產品和贏得廣大用戶三者之間的良性循環，但傳統的機器學習算法表現并不夠好，良性循環也未能實現。

深度學習相比于傳統方法有很多優勢，如下面這個很直觀的圖，隨著訓練量的提高，傳統方法遇到了瓶頸，但深度學習的效果卻蓬勃發展，不斷提高。

深度學習有哪些發展？
當年在斯坦福大學，我和我的團隊曾經有一個想法，讓機器人去識別咖啡杯。但機器人看到的東西和人完全不一樣，我們會看到一個具體的杯子，但機器能看到的只有數據，這也是計算機視覺（computer vision）難點所在，那就是要搞明白這些數字代表了什么。

過去我們的研究主要集中在三個領域。第一個是計算機視覺，目的是發現物體特征，然后描繪這種特征。第二個是語音識別（speech recognition），比如對機器說：“請找到我的咖啡杯”，機器就會識別這句話的意思。第三個是文本識別，這個有助于我們更好的應用，比如機器翻譯、網絡搜索等。

很長一段時間，我們設計了大量program，也發了一些paper，但研究沒有什么突破性進展。直到大概七年前，我和我的學生突然有一個想法：人腦中大部分感知器是一個非常簡單的計算過程。

而對于人腦的研究也表明，這個“one program”的假設是有可能的。我們可以從大腦如何聽、如何看開始，去了解大腦的神經元如何工作，并進而為深度學習提供理論依據。

有了這個依據，我們開始從有標記數據（tagged data）中學習，也就是有監督學習（supervised learning）。在給機器看了50000張咖啡杯圖片后，我們讓機器人在斯坦福計算機系辦公樓里找咖啡杯，效果非常好。進一步研究后，我們認識到bigger is better，即特征越多，實驗效果越好。

于是，我就開始尋找誰擁有更多的計算資源，于是找到了谷歌，開始了谷歌大腦這個項目，并建立了當時世界最大的神經網絡，達到10億個神經元。而我們的研究也推動了谷歌產品的發展，提升了用戶的體驗，比如谷歌地圖，以及語音識別方面的應用。

谷歌在硅谷確實很牛，但相比于谷歌，百度能夠更迅速地把深度學習技術應用到更多的產品中，比如最值得驕傲的是百度圖像搜索，準確度已超過谷歌，此外還有百度語音識別，廣告預估等。

過去很多深度學習的成功，很大原因是利用了有標記數據。像百度、谷歌、Facebook這些公司，擁有海量的有標記數據，相較于其他技術，深度學習更適合利用這些數據并獲得好的表現。

但這并不是深度學習發展的唯一方向，想想寶寶是如何學習的？他們并不是從有標記數據中獲得認知，即使是最最深沉地愛著自己孩子的父母，也不會找出5萬個咖啡杯的照片指認給自己的孩子看，來讓他認識什么是咖啡杯的。另外一點，標記數據可能存在用完的問題。所以大家認為使用未標記數據來學習，會是未來的發展方向。

實際上，人類大腦如何處理圖片的過程就是visual cortex尋找圖片中Lines/edges的過程，而每一個visual cortex的神經元就是一個Model。

基于生物學中visual cortex的工作原理，發現人腦處理的過程是：像素->邊緣->對象部分->對象模型。深度學習的過程是反向的。深度學習就是找到小patch再將其進行組合，就得到了上一層的特征(feature），遞歸地向上學習特征( feature)。在不同對象(object)上做訓練是，所得的邊緣(edge)是非常相似的，但對象部分(object parts)和模型(models) 就會完全不同。

（筆者：講到這里，Andrew秀出了他的演講中唯一的一個公式，還和大家開玩笑的說道，I hope you can enjoy it. 由于筆者的水平，這段聽的不太明白，就把公式貼出來，大家自己琢磨吧。）

我們曾使用Youtube視頻作為未標記數據，讓機器自主學習。這個過程中我們發現人臉在視頻中出現的頻率非常高，神經網絡可以學習如何認出人臉。但令人驚喜的是，機器通過自學辨別出了貓臉。

當時我作報告時，經常會有人過來對我說：深度學習聽起來真的很酷，但如果沒有造價昂貴的16000個 CPU，我們還能在深度學習上有所進展么？所以我和Adam、Bryan（兩周前剛剛加盟百度）就致力于尋找到更便宜的研發方法。后來我們決定用GPU（Graphic Processing Unit）替代CPU，降低造價。于是，具有100億個節點的神經元網絡便出現了。

深度學習未來去向何方？
我認為0-2年內仍以標記數據為主導發展方向，之后的3-5年，標記數據和未標記數據將共同發展。但關于深度學習的未來更長遠的發展，我認為將會更依賴于無標記的數據，因為這與人類和動物認知世界的過程更為類似。

具體地說，在計算機視覺方面，預計在6年內，我認為深度學習將會顛覆現有的所有方法。

在語音識別方面，目前還處于起步階段，未來將會有爆發式增長。語音識別和語音合成會在近幾年產生巨大的影響。語義理解方面，發展的過程將會是從單詞的理解到一個句子，再到文章理解（document representation）。推薦系統和廣告方面，百度做的很好，有效提高了廣告表現。機器人方面，未來將會出現真正的智能機器人。

此外，就是對獲取數據的創新。現在的很多研究都是基于海量數據，未來或許我們可以通過某種傳感器訓練攝像頭來捕捉更多的數據。我甚至想和朋友在空閑的時間里，成立一個國際數據獲取大會（conference of data acquisition），很遺憾，我沒有這個時間。而未來的挑戰將會集中在規模化和算法這兩方面。

百度研究院的使命
創立coursera時，我的愿望是讓每個人可以平等地獲得學習的機會。如今，誰能助我成就人工智能的夢想呢？最終我選擇了百度。

之所以選擇百度，我看到了百度擁有大數據和強大的計算能力；有敏捷的機構，能快速地調配資源去需要的地方，也能夠將技術快速落地，比如GPU的落地；同時，我被我所遇到的人所折服，比如Robin、王勁、余凱和張潼。

我相信未來百度研究院將研發出最棒的工具和技術，構建最佳的員工職業發展之路，努力打造一個最好的環境來吸引優秀工程師和研究人員加入我們，成就未來深度學習領域的英雄（future hero of Deep Learning）。

posted @ 2014-07-09 10:25 杰哥閱讀(366) | 評論 (0) | 編輯收藏

[zz]2014-7 Andrew Ng 自動化所報告聽后感

http://blog.sina.cn/dpool/blog/s/blog_593af2a70102uwhl.html?ref=weibocard&from=timeline&isappinstalled=0

一早出發，8點20就趕到現場，人越聚越多，Ng提前幾分鐘到達現場，掌聲一片。 Ng的報告總體上提到了五個方向。
1）Deep Learning相比于傳統方法的優勢
首先，一個很直觀的圖，隨著訓練量的提高，傳統方法很快走到天花板，而Deep Learning的效果還能持續走高，后來這個在提問環節也有同學問道，是否會一直提高，Andrew Ng也坦誠需要面對不同的問題來討論，而且任何方法都有天花板。

這個問題蠻關鍵的，我補充回答一下，其實這是一個特征表達力的問題，傳統方法特征表達力，不如Deep Learning的多層學習得到的更有效果的表達。舉個例子，假定有一種疾病，這種疾病容易在個高且胖的人群，以及個矮且瘦的人群中易感。那么任意從給一個特征角度上看，比如肥胖，那么胖的這部分人中，得此病的概率為50%，不胖的也是50%，那么'胖'這個特征沒有表達力。

用學術上的術語來說，身高和體型是兩個Marginally independent的變量，即如果觀察到了他們產生的結果，他們就不獨立了。也就是如果身高和體型在用于檢測這種疾病的時候，他們就不獨立了，因此需要有一種特征表示的方式來表示他們的這種不獨立性，能夠combine他們以形成更好的特征。而這種更結構化的特征，需要大量的語料才能training到位。而獨立性的特征，往往少部分語料就可以獲得很好的結果，但隨著語料數量的提高，無法observe到結構化的特征，因此更多的語料就浪費了。我們都知道這是AI領域的XOR問題，也就是二層神經網絡就能求解，換言之，多層神經網絡mining出來更好的特征。

接著Ng也直觀的展示了，從像素級特征(表達力最弱）到edges級特征，直到object級特征。從edges特征大家看到的這個形式，其實是深度神經網絡的edges中的一個小塊，就是input layer到第一個hidden layer之間的一組邊（如果是RBM 的話）或者是第一個hidden layer到output layer的一組邊，這組邊可以理解成training的成果。而hidden layer是一個sparse coding的向量，用來combine不同組的邊來還原出input layer。
因此可以看到，通過深度學習的處理，無需tagged data，通過自學習的方式，就可以做到特征的表達力從像素級，提高到了 object models，多么美妙啊，難怪Ng用了Amazing這個詞，而且再一次地露出了特有的微笑。
2）Deep Learning存在的問題
Ng提到了，通常學生試驗在10 million connections這個水平，因為在大已經超出計算的能力，但如果采用并發的方法，160000萬個CPUs的情況下，可以達到1 billion connections這個水平。如果采用特制的GPU來計算，可以達到10 billion connections的水平。
從我自己的實驗結果看，目前做千萬connection是沒問題的，時機成熟我就開放出來，但受限于CPU在向量計算的劣勢，再大的話，每一輪訓練的時間就會大大提高，變得不可計算，而分布式Parameter server的搞法，雖然能夠第一步把語料shard一下，然后各自訓練，到了最高層用類似transform learning的法子再combine（這段話是我自己猜測的，Ng的報告這里我沒聽太懂，圖片是按照記憶畫出）

我個人的理解，就是一個巨大語料切成n個部分，每個部分產生表達力強的特征，而這些表達力強的特征在一個階段，就是那個長條哪里進行combine，也就是這個hidden layer可以很好的表達來自不同shard的特征，最后在展開各層，用不同shard上的tagged data來進一步調整每條邊的權重。
3）Deep Learning的Idea

這個可能沒什么可說的，但我認為很重要，這段話不難翻譯，人腦中大部分感知器是一個非常簡單的計算過程。但通過組合可以達到很高的理解力。但問題是如何組合，感知的過程如何從低級階段到高級階段，從明暗，色彩的感知，到人類喜怒哀樂的情感，整個過程的每一步可能都是naive得，但整個認知鏈條的末端一定是語義的，有感情的，上升到概念的。另外，通常還有一個體會，比如看一本小說，腦海中就能自然浮現畫面，可見不同神經感知器也不是完全獨立的，而是彼此聯系的。
4）Deep Learning的一些成果
報告中提到很多成果，特別是提到了圖像識別中，在DL面前，SIFT特征提取算法弱爆了，我還是為Ng的自信和霸氣，略震了一下。按照常規，學術界的同志應該謙虛，尊重下老前輩，尊重下傳統的。。
后來的提問環節，也有同學問到，那些old算法框架怎么辦呢？Ng說無論怎樣，這就是科學技術的趨勢，當一個東西產生明顯效果后，越來越多的方法會采用這些新方法，而傳統方法，不是說研究者就立馬到zero，但的確會fewer and fewer。當時我心里想，無論如何如何，總得有留下少部分堅守的同志，沒準10年后翻身也難說，但大部隊應該撲新方法的。

5）未來趨勢

未來趨勢基本是一些喜聞樂見的東西，沒什么新意，包括后來提問環節也有人提問，讓Ng透露未來的一些計劃。Ng說未來的事情總是千變萬化的，如果真是希望了解產業界的一些計劃，可以來百度打工，和最優秀的工程師一起做事。
提問環節有很多有趣的話題，比如有人問百度，以及Andrew Ng本人對Spark的評價，Ng回答到，百度用了很多開源工具，但機器學習的很多問題太Uniq了，太特殊了，而Spark這種通用的東西很難滿足需求，當然不是說SPark不好，只是Ng本人也很少用（用了Less這個詞匯）。還有包括為什么效忠百度，Ng說了三個原因，第一他認為機器學習是Transform世界，Transform互聯網的一種方式，相比coursera更加感興趣。第二百度擁有大量優秀的科學家，高質量的同事，比如余凱，張潼，李偉同志等等。第三，百度擁有大量的data，還有個同學要DL的Reading List，Ng給了個這個：http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Recommended_Readings，還說里面有鄧侃號召中國青年的貢獻在里面。另外根據網友@fiona_duan的反饋。最后Andrew提到的是他出生于香港，長在英國和新加坡，之后在美求學和生活。他和媳婦都在美國。他媳婦叫Carol Reiley. Carol 是約翰·霍普金斯大學的醫學博士以及在讀計算機博士，研究方向是生物醫學方向的機器人應用。
整個報告大概就是這樣，我的理解也難免偏頗，水平難免有限，但我坐在第一排，努力的聽每一個細節，并快速思考，能量消耗蠻大的，另外就是百度來了幾個美女，看上去比較有知識，跑前跑后的拍照。
上次在清華的報告，這里也一并推薦閱讀下：http://blog.sina.cn/dpool/blog/s/blog_593af2a70101bqyo.html?vt=4

posted @ 2014-07-08 08:52 杰哥閱讀(368) | 評論 (0) | 編輯收藏

Adobe distiller: Cambria not found, using Courier. 報錯解決辦法

http://blog.sina.com.cn/s/blog_4cf8aad301017uk2.html

調整PDF print屬性。將
Rely on system fonts only; do not use document fonts.
取消勾選.即可

如圖：

posted @ 2014-07-06 16:53 杰哥閱讀(9571) | 評論 (1) | 編輯收藏

The feelings of attending the 31st International Conference on Machine Learning (ICML 2014)

Under construction.

posted @ 2014-06-27 21:46 杰哥閱讀(350) | 評論 (0) | 編輯收藏

常用鏈接

留言簿(57)

隨筆分類

隨筆檔案

相冊

Other

Paper submission

福彩

留學相關

論壇

搜索

學者

郵箱

中科大和中科院

搜索

最新評論

閱讀排行榜

評論排行榜