全文轉(zhuǎn)載薛貴榮博士的文章《遷移學習( Transfer Learning )》。原文點擊
這里!
在傳統(tǒng)的機器學習的框架下,學習的任務(wù)就是在給定充分訓練數(shù)據(jù)的基礎(chǔ)上來學習一個分類模型;然后利用這個學習到的模型來對測試文檔進行分類與預測。然而,我們看到機器學習算法在當前的Web挖掘研究中存在著一個關(guān)鍵的問題:一些新出現(xiàn)的領(lǐng)域中的大量訓練數(shù)據(jù)非常難得到。我們看到Web應(yīng)用領(lǐng)域的發(fā)展非常快速。大量新的領(lǐng)域不斷涌現(xiàn),從傳統(tǒng)的新聞,到網(wǎng)頁,到圖片,再到博客、播客等等。傳統(tǒng)的機器學習需要對每個領(lǐng)域都標定大量訓練數(shù)據(jù),這將會耗費大量的人力與物力。而沒有大量的標注數(shù)據(jù),會使得很多與學習相關(guān)研究與應(yīng)用無法開展。其次,傳統(tǒng)的機器學習假設(shè)訓練數(shù)據(jù)與測試數(shù)據(jù)服從相同的數(shù)據(jù)分布。然而,在許多情況下,這種同分布假設(shè)并不滿足。通常可能發(fā)生的情況如訓練數(shù)據(jù)過期。這往往需要我們?nèi)ブ匦聵俗⒋罅康挠柧殧?shù)據(jù)以滿足我們訓練的需要,但標注新數(shù)據(jù)是非常昂貴的,需要大量的人力與物力。從另外一個角度上看,如果我們有了大量的、在不同分布下的訓練數(shù)據(jù),完全丟棄這些數(shù)據(jù)也是非常浪費的。如何合理的利用這些數(shù)據(jù)就是遷移學習主要解決的問題。遷移學習可以從現(xiàn)有的數(shù)據(jù)中遷移知識,用來幫助將來的學習。遷移學習(Transfer Learning)的目標是將從一個環(huán)境中學到的知識用來幫助新環(huán)境中的學習任務(wù)。因此,遷移學習不會像傳統(tǒng)機器學習那樣作同分布假設(shè)。
我們在遷移學習方面的工作目前可以分為以下三個部分:同構(gòu)空間下基于實例的遷移學習,同構(gòu)空間下基于特征的遷移學習與異構(gòu)空間下的遷移學習。我們的研究指出,基于實例的遷移學習有更強的知識遷移能力,基于特征的遷移學習具有更廣泛的知識遷移能力,而異構(gòu)空間的遷移具有廣泛的學習與擴展能力。這幾種方法各有千秋。
1.同構(gòu)空間下基于實例的遷移學習
基于實例的遷移學習的基本思想是,盡管輔助訓練數(shù)據(jù)和源訓練數(shù)據(jù)或多或少會有些不同,但是輔助訓練數(shù)據(jù)中應(yīng)該還是會存在一部分比較適合用來訓練一個有效的分類模型,并且適應(yīng)測試數(shù)據(jù)。于是,我們的目標就是從輔助訓練數(shù)據(jù)中找出那些適合測試數(shù)據(jù)的實例,并將這些實例遷移到源訓練數(shù)據(jù)的學習中去。在基于實例的遷移學習方面,我們推廣了傳統(tǒng)的AdaBoost算法,提出一種具有遷移能力的boosting算法:Tradaboosting [9],使之具有遷移學習的能力,從而能夠最大限度的利用輔助訓練數(shù)據(jù)來幫助目標的分類。我們的關(guān)鍵想法是,利用boosting的技術(shù)來過濾掉輔助數(shù)據(jù)中那些與源訓練數(shù)據(jù)最不像的數(shù)據(jù)。其中,boosting的作用是建立一種自動調(diào)整權(quán)重的機制,于是重要的輔助訓練數(shù)據(jù)的權(quán)重將會增加,不重要的輔助訓練數(shù)據(jù)的權(quán)重將會減小。調(diào)整權(quán)重之后,這些帶權(quán)重的輔助訓練數(shù)據(jù)將會作為額外的訓練數(shù)據(jù),與源訓練數(shù)據(jù)一起從來提高分類模型的可靠度。
基于實例的遷移學習只能發(fā)生在源數(shù)據(jù)與輔助數(shù)據(jù)非常相近的情況下。但是,當源數(shù)據(jù)和輔助數(shù)據(jù)差別比較大的時候,基于實例的遷移學習算法往往很難找到可以遷移的知識。但是我們發(fā)現(xiàn),即便有時源數(shù)據(jù)與目標數(shù)據(jù)在實例層面上并沒有共享一些公共的知識,它們可能會在特征層面上有一些交集。因此我們研究了基于特征的遷移學習,它討論的是如何利用特征層面上公共的知識進行學習的問題。
2.同構(gòu)空間下基于特征的遷移學習
在基于特征的遷移學習研究方面,我們提出了多種學習的算法,如CoCC算法[7],TPLSA算法[4],譜分析算法[2]與自學習算法[3]等。其中利用互聚類算法產(chǎn)生一個公共的特征表示,從而幫助學習算法。我們的基本思想是使用互聚類算法同時對源數(shù)據(jù)與輔助數(shù)據(jù)進行聚類,得到一個共同的特征表示,這個新的特征表示優(yōu)于只基于源數(shù)據(jù)的特征表示。通過把源數(shù)據(jù)表示在這個新的空間里,以實現(xiàn)遷移學習。應(yīng)用這個思想,我們提出了基于特征的有監(jiān)督遷移學習與基于特征的無監(jiān)督遷移學習。
2.1 基于特征的有監(jiān)督遷移學習
我們在基于特征的有監(jiān)督遷移學習方面的工作是基于互聚類的跨領(lǐng)域分類[7],這個工作考慮的問題是:當給定一個新的、不同的領(lǐng)域,標注數(shù)據(jù)及其稀少時,如何利用原有領(lǐng)域中含有的大量標注數(shù)據(jù)進行遷移學習的問題。在基于互聚類的跨領(lǐng)域分類這個工作中,我們?yōu)榭珙I(lǐng)域分類問題定義了一個統(tǒng)一的信息論形式化公式,其中基于互聚類的分類問題的轉(zhuǎn)化成對目標函數(shù)的最優(yōu)化問題。在我們提出的模型中,目標函數(shù)被定義為源數(shù)據(jù)實例,公共特征空間與輔助數(shù)據(jù)實例間互信息的損失。
2.2 基于特征的無監(jiān)督遷移學習:自學習聚類
我們提出的自學習聚類算法[3]屬于基于特征的無監(jiān)督遷移學習方面的工作。這里我們考慮的問題是:現(xiàn)實中可能有標記的輔助數(shù)據(jù)都難以得到,在這種情況下如何利用大量無標記數(shù)據(jù)輔助數(shù)據(jù)進行遷移學習的問題。自學習聚類 的基本思想是通過同時對源數(shù)據(jù)與輔助數(shù)據(jù)進行聚類得到一個共同的特征表示,而這個新的特征表示由于基于大量的輔助數(shù)據(jù),所以會優(yōu)于僅基于源數(shù)據(jù)而產(chǎn)生的特征表示,從而對聚類產(chǎn)生幫助。
上面提出的兩種學習策略(基于特征的有監(jiān)督遷移學習與無監(jiān)督遷移學習)解決的都是源數(shù)據(jù)與輔助數(shù)據(jù)在同一特征空間內(nèi)的基于特征的遷移學習問題。當源數(shù)據(jù)與輔助數(shù)據(jù)所在的特征空間中不同時,我們還研究了跨特征空間的基于特征的遷移學習,它也屬于基于特征的遷移學習的一種。
3 異構(gòu)空間下的遷移學習:翻譯學習
我們提出的翻譯學習[1][5]致力于解決源數(shù)據(jù)與測試數(shù)據(jù)分別屬于兩個不同的特征空間下的情況。在[1]中,我們使用大量容易得到的標注過文本數(shù)據(jù)去幫助僅有少量標注的圖像分類的問題,如上圖所示。我們的方法基于使用那些用有兩個視角的數(shù)據(jù)來構(gòu)建溝通兩個特征空間的橋梁。雖然這些多視角數(shù)據(jù)可能不一定能夠用來做分類用的訓練數(shù)據(jù),但是,它們可以用來構(gòu)建翻譯器。通過這個翻譯器,我們把近鄰算法和特征翻譯結(jié)合在一起,將輔助數(shù)據(jù)翻譯到源數(shù)據(jù)特征空間里去,用一個統(tǒng)一的語言模型進行學習與分類。
引文:
[1]. Wenyuan Dai, Yuqiang Chen, Gui-Rong Xue, Qiang Yang, and Yong Yu. Translated Learning: Transfer Learning across Different Feature Spaces. Advances in Neural Information Processing Systems 21 (NIPS 2008), Vancouver, British Columbia, Canada, December 8-13, 2008.
[2]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue, Qiang Yang, and Yong Yu. Spectral Domain-Transfer Learning. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2008), Pages 488-496, Las Vegas, Nevada, USA, August 24-27, 2008.
[3]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Self-taught Clustering. In Proceedings of the Twenty-Fifth International Conference on Machine Learning (ICML 2008), pages 200-207, Helsinki, Finland, 5-9 July, 2008.
[4]. Gui-Rong Xue, Wenyuan Dai, Qiang Yang and Yong Yu. Topic-bridged PLSA for Cross-Domain Text Classification. In Proceedings of the Thirty-first International ACM SIGIR Conference on Research and Development on Information Retrieval (SIGIR2008), pages 627-634, Singapore, July 20-24, 2008.
[5]. Xiao Ling, Gui-Rong Xue, Wenyuan Dai, Yun Jiang, Qiang Yang and Yong Yu. Can Chinese Web Pages be Classified with English Data Source? In Proceedings the Seventeenth International World Wide Web Conference (WWW2008), Pages 969-978, Beijing, China, April 21-25, 2008.
[6]. Xiao Ling, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Knowledge Transferring via Implicit Link Analysis. In Proceedings of the Thirteenth International Conference on Database Systems for Advanced Applications (DASFAA 2008), Pages 520-528, New Delhi, India, March 19-22, 2008.
[7]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Co-clustering based Classification for Out-of-domain Documents. In Proceedings of the Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD 2007), Pages 210-219, San Jose, California, USA, Aug 12-15, 2007.
[8]. Wenyuan Dai, Gui-Rong Xue, Qiang Yang and Yong Yu. Transferring Naive Bayes Classifiers for Text Classification. In Proceedings of the Twenty-Second National Conference on Artificial Intelligence (AAAI 2007), Pages 540-545, Vancouver, British Columbia, Canada, July 22-26, 2007.
[9]. Wenyuan Dai, Qiang Yang, Gui-Rong Xue and Yong Yu. Boosting for Transfer Learning. In Proceedings of the Twenty-Fourth International Conference on Machine Learning (ICML 2007), Pages 193-200, Corvallis, Oregon, USA, June 20-24, 2007.
[10]. Dikan Xing, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Bridged Refinement for Transfer Learning. In Proceedings of the Eleventh European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2007), Pages 324-335, Warsaw, Poland, September 17-21, 2007. (Best Student Paper Award)
[11]. Xin Zhang, Wenyuan Dai, Gui-Rong Xue and Yong Yu. Adaptive Email Spam Filtering based on Information Theory. In Proceedings of the Eighth International Conference on Web Information Systems Engineering (WISE 2007), Pages 159–170, Nancy, France, December 3-7, 2007.