特別推薦:
1、HMM學(xué)習(xí)最佳范例全文文檔
2、無(wú)約束最優(yōu)化全文文檔
一、書籍:
1、《自然語(yǔ)言處理綜論》英文版第二版
2、《統(tǒng)計(jì)自然語(yǔ)言處理基礎(chǔ)》英文版
3、《用Python進(jìn)行自然語(yǔ)言處理》,NLTK配套書
4、《Learning Python第三版》,Python入門經(jīng)典書籍,詳細(xì)而不厭其煩
5、《自然語(yǔ)言處理中的模式識(shí)別》
6、《EM算法及其擴(kuò)展》
7、《統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)》
8、《自然語(yǔ)言理解》英文版(似乎只有前9章)
9、《Fundamentals of Speech Recognition》,質(zhì)量不太好,不過(guò)第6章關(guān)于HMM的部分比較詳細(xì),作者之一便是Lawrence Rabiner;
10、概率統(tǒng)計(jì)經(jīng)典入門書:《概率論及其應(yīng)用》(英文版,威廉*費(fèi)勒著)
第一卷 第二卷 DjVuLibre閱讀器(閱讀前兩卷書需要)
11、一本利用Perl和Prolog進(jìn)行自然語(yǔ)言處理的介紹書籍:《An Introduction to Language Processing with Perl and Prolog》
12、國(guó)外機(jī)器學(xué)習(xí)書籍之:
1) “Programming Collective Intelligence“,中文譯名《集體智慧編程》,機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘領(lǐng)域”近年出的入門好書,培養(yǎng)興趣是最重要的一環(huán),一上來(lái)看大部頭很容易被嚇走的”
2) “Machine Learning“,機(jī)器學(xué)習(xí)領(lǐng)域無(wú)可爭(zhēng)議的經(jīng)典書籍,下載完畢將后綴改為pdf即可。豆瓣評(píng)論 by王寧):老書,牛人。現(xiàn)在看來(lái)內(nèi)容并不算深,很多章節(jié)有點(diǎn)到為止的感覺,但是很適合新手(當(dāng)然,不能”新”到連算法和概率都不知道)入門。比如決策樹部分就很精彩,并且這幾年沒(méi)有特別大的進(jìn)展,所以并不過(guò)時(shí)。另外,這本書算是對(duì)97年前數(shù)十年機(jī)器學(xué)習(xí)工作的大綜述,參考文獻(xiàn)列表極有價(jià)值。國(guó)內(nèi)有翻譯和影印版,不知道絕版否。
3) “Introduction to Machine Learning”
13、國(guó)外數(shù)據(jù)挖掘書籍之:
1) “Data.Mining.Concepts.and.Techniques.2nd“,數(shù)據(jù)挖掘經(jīng)典書籍 作者 : Jiawei Han/Micheline Kamber 出版社 : Morgan Kaufmann 評(píng)語(yǔ) : 華裔科學(xué)家寫的書,相當(dāng)深入淺出。
2) Data Mining:Practical Machine Learning Tools and Techniques
3) Beautiful Data: The Stories Behind Elegant Data Solutions( Toby Segaran, Jeff Hammerbacher)
14、國(guó)外模式識(shí)別書籍之:
1)“Pattern Recognition”
2)“Pattern Recongnition Technologies and Applications”
3)“An Introduction to Pattern Recognition”
4)“Introduction to Statistical Pattern Recognition”
5)“Statistical Pattern Recognition 2nd Edition”
6)“Supervised and Unsupervised Pattern Recognition”
7)“Support Vector Machines for Pattern Classification”
15、國(guó)外人工智能書籍之:
1)Artificial Intelligence: A Modern Approach (2nd Edition) 人工智能領(lǐng)域無(wú)爭(zhēng)議的經(jīng)典。
2)“Paradigms of Artificial Intelligence Programming: Case Studies in Common LISP”
16、其他相關(guān)書籍:
1)Programming the Semantic Web,Toby Segaran , Colin Evans, Jamie Taylor
2)Learning.Python第四版,英文
二、課件:
1、哈工大劉挺老師的“統(tǒng)計(jì)自然語(yǔ)言處理”課件;
2、哈工大劉秉權(quán)老師的“自然語(yǔ)言處理”課件;
3、中科院計(jì)算所劉群老師的“計(jì)算語(yǔ)言學(xué)講義“課件;
4、中科院自動(dòng)化所宗成慶老師的“自然語(yǔ)言理解”課件;
5、北大常寶寶老師的“計(jì)算語(yǔ)言學(xué)”課件;
6、北大詹衛(wèi)東老師的“中文信息處理基礎(chǔ)”的課件及相關(guān)代碼;
7、MIT Regina Barzilay教授的“自然語(yǔ)言處理”課件,52nlp上翻譯了前5章;
8、MIT大牛Michael Collins的“Machine Learning Approaches for Natural Language Processing(面向自然語(yǔ)言處理的機(jī)器學(xué)習(xí)方法)”課件;
9、Michael Collins的“Machine Learning (機(jī)器學(xué)習(xí))”課件;
10、SMT牛人Philipp Koehn “Advanced Natural Language Processing(高級(jí)自然語(yǔ)言處理)”課件;
11、Philipp Koehn “Empirical Methods in Natural Language Processing”課件;
12、Philipp Koehn“Machine Translation(機(jī)器翻譯)”課件;
三、語(yǔ)言資源和開源工具:
1、Brown語(yǔ)料庫(kù):
a) XML格式的brown語(yǔ)料庫(kù),帶詞性標(biāo)注;
b) 普通文本格式的brown語(yǔ)料庫(kù),帶詞性標(biāo)注;
c) 合并并去除空行、行首空格,用于詞性標(biāo)注訓(xùn)練:browntest.zip
2、NLTK官方提供的語(yǔ)料庫(kù)資源列表
3、OpenNLP上的開源自然語(yǔ)言處理工具列表
4、斯坦福大學(xué)自然語(yǔ)言處理組維護(hù)的“統(tǒng)計(jì)自然語(yǔ)言處理及基于語(yǔ)料庫(kù)的計(jì)算語(yǔ)言學(xué)資源列表”
5、LDC上免費(fèi)的中文信息處理資源
6、中文分詞相關(guān)工具:
1)Java版本的MMSEG:mmseg-v0.3.zip,作者為solol,詳情可參見:《中文分詞入門之篇外》
2)張華平老師的ICTCLAS2010,該版本非商用免費(fèi)一年,下載地址:
http://cid-51de2738d3ea0fdd.skydrive.live.com/self.aspx/.Public/ICTCLAS2010-packet-release.rar
7、熱心讀者“finallyliuyu”提供的一批新聞?wù)Z料庫(kù),包括騰訊,新浪,網(wǎng)易,鳳凰等,目前放在CSDN上:http://finallyliuyu.download.csdn.net/
另外finalllyliuyu在2010年9月又提供了一批文本文類語(yǔ)料,詳情見:獻(xiàn)給熱衷于自然語(yǔ)言處理的業(yè)余愛好者的中文新聞分類語(yǔ)料庫(kù)之二
四、文獻(xiàn):
1、ACL-IJCNLP 2009論文全集:
a) 大會(huì)論文Full Paper第一卷
b) 大會(huì)論文Full Paper第二卷
c) 大會(huì)論文Short Paper合集
d) ACL09之EMNLP-2009合集
e) ACL09 所有workshop論文合集