目前網(wǎng)上可供下載的數(shù)據(jù)眾多,但是內(nèi)容龐雜,把其中比較有用的數(shù)據(jù)找了出來(lái)。
wiki系:
wikipedia大家都不陌生,它的下載地址是:http://dumps.wikimedia.org/ , 這里有詳細(xì)介紹:http://en.wikipedia.org/wiki/Wikipedia:Database_download
但是wikipedia只是Wikimedia基金會(huì)的一個(gè)子項(xiàng)目,wikimedia下面還有多個(gè)其他的重要項(xiàng)目,包括:
wiktionary 一個(gè)語(yǔ)義化的關(guān)聯(lián)詞典,形式上類(lèi)似于wordnet
wikiquote 收錄各種名人名言
Wikibooks 免費(fèi)的教科書(shū)和手冊(cè)
Wikinews 大量的新聞故事
Wikiversity 免費(fèi)的教育材料
Wikisource 免費(fèi)的文本內(nèi)容
上述的這些內(nèi)容,都可以通過(guò)http://dumps.wikimedia.org/ 下載到。
還有一些小型的wiki項(xiàng)目,比如:
http://simple.wikipedia.org 使用Basic English寫(xiě)的wiki,給兒童和初學(xué)者看
http://simple.wiktionary.org 使用Basic English寫(xiě)的wiktionary
wikipedia的數(shù)據(jù)處理有很多方式,我比較推崇這兩個(gè):
jwpl: http://code.google.com/p/jwpl/
wikipedia-miner: http://wikipedia-miner.cms.waikato.ac.nz/wiki/
下面我介紹下另一個(gè)商業(yè)化的wiki網(wǎng)站:http://www.wikia.com 這個(gè)網(wǎng)站上用戶(hù)可以創(chuàng)建單獨(dú)的維基網(wǎng)站,下面是排名前250位wikia網(wǎng)站:
http://wikis.wikia.com/wiki/List_of_Wikia_wikis
wikia上的資源也可供下載:http://community.wikia.com/wiki/Help:Database_download
Freebase:
freebase是啥就不解釋了,下面給出數(shù)據(jù)的下載地址:
http://wiki.freebase.com/wiki/Data_dumps freebase自身的數(shù)據(jù)
http://wiki.freebase.com/wiki/WEX freebase從wikipedia中提取的數(shù)據(jù)
YAGO2:
http://www.mpi-inf.mpg.de/yago-naga/yago/
dbpedia:
http://www.dbpedia.org
如果要找LinkedData,可以來(lái)這里:http://www.thedatahub.org 這里收集了很多Linked Data
http://linkeddata.org/ 這里有一張圖,給出了各種linkeddata的關(guān)系和影響力。
如果要找各種網(wǎng)上的api,可以來(lái)這里:http://www.programmableweb.com
現(xiàn)在外國(guó)政府紛紛對(duì)外公開(kāi)數(shù)據(jù),下面是幾個(gè)政府的開(kāi)放數(shù)據(jù)集:
http://data.gov.au 澳大利亞
http://data.dc.gov 美國(guó)哥倫比亞州的
http://www.data.gov 美國(guó)
http://data.gov.uk 英國(guó)
http://databases.lapl.org/ 洛杉磯地區(qū)的開(kāi)放數(shù)據(jù)集,知道硅谷為啥這么牛了吧
http://www.gov.hk/en/theme/psi/welcome 香港政府也公開(kāi)了很多數(shù)據(jù)
對(duì)比一下,外國(guó)政府做了這么多實(shí)事,人民大會(huì)堂里的那些酒囊飯袋們都在干什么?
http://lexsrv3.nlm.nih.gov/LexSysGroup/Projects/lexAccess/current/web/download.html 美國(guó)國(guó)家衛(wèi)生署發(fā)布的詞表
http://www.census.gov/genealogy/www/data/2000surnames/index.html 美國(guó)統(tǒng)計(jì)局的姓名數(shù)據(jù)
https://www.cia.gov/library/publications/download/ 美國(guó)中央情報(bào)局發(fā)布的factbook,介紹了世界各國(guó)情況
連衛(wèi)生署,統(tǒng)計(jì)局和中情局這種單位都為美國(guó)的信息建設(shè)做出了這么多的貢獻(xiàn),我們應(yīng)該知道自己跟美帝的差距有多大了吧。
敘詞表:
http://www.nlm.nih.gov/mesh/filelist.html mesh,關(guān)于醫(yī)學(xué)的受控詞表
http://id.loc.gov/download/ 美國(guó)國(guó)會(huì)圖書(shū)館發(fā)布的敘詞表
一些三元組數(shù)據(jù):
http://www.cs.utexas.edu/users/pclark/dart/ 采集自BNC(英國(guó)國(guó)家語(yǔ)料庫(kù))和Reuters,2300萬(wàn)條
http://reverb.cs.washington.edu/ 華盛頓大學(xué)的項(xiàng)目,1500萬(wàn)條
http://www.cs.washington.edu/research/sherlock-hornclauses/ 大約有200-300萬(wàn)條數(shù)據(jù)
http://www.cs.rochester.edu/research/knext 有535萬(wàn)條數(shù)據(jù),來(lái)自BNC和布朗語(yǔ)料庫(kù)
http://rtw.ml.cmu.edu/rtw/resources readtheweb項(xiàng)目,數(shù)據(jù)量較小
機(jī)讀詞典:
http://wordnet.princeton.edu/ 英語(yǔ)的wordnet
http://nlpwww.nict.go.jp/wn-ja/index.en.html 日語(yǔ)的wordnet
http://alpage.inria.fr/~sagot/wolf-en.html 法語(yǔ)的wordnet
http://wordnet.ru/ 俄羅斯的wordnet
http://cl.haifa.ac.il/projects/mwn/index.shtml 希伯來(lái)語(yǔ)的wordnet
http://wordnet.dk/dannet/menu?item=2 丹麥語(yǔ)的wordnet
http://grial.uab.es/sensem/download?idioma=en 西班牙語(yǔ)的wordnet
http://www.ling.helsinki.fi/en/lt/research/finnwordnet/download.shtml 芬蘭語(yǔ)的wordnet
這些不同版本的wordnet都是免費(fèi)下載的。可恨中國(guó)泱泱五千年的文明古國(guó),文獻(xiàn)典故浩如煙海,竟連一份免費(fèi)且公開(kāi)的機(jī)讀詞典都沒(méi)有。這是漢語(yǔ)的恥辱,中國(guó)的恥辱,也是中華民族的恥辱。特別是中科院計(jì)算所和自動(dòng)化所的人們,你們覺(jué)得呢?(順祝hownet生意興隆,越賣(mài)越好)
http://dico.fj.free.fr/dico.php 日法詞典
http://www.csse.monash.edu.au/~jwb/edict.html 日英詞典
http://cc-cedict.org/wiki/start 中文到英文的詞典,終于出來(lái)中文的了,可惜是外國(guó)人搞出來(lái)的。
https://framenet.icsi.berkeley.edu 基于框架語(yǔ)義學(xué)的東東,恐怕不能算詞典,不過(guò)沒(méi)地兒放了。
語(yǔ)料庫(kù):
http://opus.lingfil.uu.se/ 開(kāi)放的平行語(yǔ)料庫(kù)
http://opus.lingfil.uu.se/OpenSubtitles_v2.php 大量電影字幕的下載地址
http://www.statmt.org/europarl 歐洲議會(huì)的平行語(yǔ)料庫(kù)
http://www.anc.org/OANC/ 開(kāi)放的美國(guó)國(guó)家語(yǔ)料庫(kù)
http://snap.stanford.edu/data/ 斯坦福大學(xué)的SNAP項(xiàng)目,抓了很多數(shù)據(jù),不過(guò)時(shí)間較早,只有研究?jī)r(jià)值